Voice-IME/README.md

80 lines
2.1 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Voice IME 语音输入法
Windows 系统托盘语音输入工具。按下快捷键开始录音,通过阿里云 Qwen ASR 实时语音识别 API 将语音转为文字,自动输入到当前光标位置。
## 功能
- **快捷键切换录音**:默认 F10按一次开始再按一次停止
- **流式语音识别**:使用 Qwen3 ASR Realtime API支持 VAD 自动断句,边说边输入
- **增量文本插入**:对识别结果做 diff仅输入变化部分不影响输入框已有内容
- **系统托盘**:托盘图标显示当前状态(空闲/录音中),右键菜单提供设置
- **音效提示**:录音开始和停止时播放提示音
- **暂停媒体播放**:录音时可自动暂停系统媒体播放(可关闭)
- **可自定义配置**
- 快捷键
- API Key
- ASR 模型
- 媒体暂停开关
## 使用方法
### 获取 API Key
前往 [阿里云百炼](https://bailian.console.aliyun.com/) 开通 Qwen ASR 服务并获取 API Key。
### 运行
```
cargo build --release
./target/release/voice-ime.exe
```
首次启动会弹窗要求输入 API Key。输入后程序最小化到系统托盘。
### 操作
| 操作 | 说明 |
|------|------|
| 按下快捷键(默认 F10 | 开始/停止录音 |
| 右键托盘图标 | 打开设置菜单 |
### 右键菜单
- **设置快捷键** — 按下任意键即可更换
- **录音时暂停媒体播放** — 勾选开关
- **设置 API Key** — 修改 ASR 服务密钥
- **设置模型** — 修改 ASR 模型名称
- **退出**
### 配置文件
配置保存在 `%APPDATA%\voice-ime\config.json`,格式示例:
```json
{
"hotkey_vk": 121,
"media_pause_enabled": true,
"api_key": "sk-xxxxxxxx",
"model": "qwen3-asr-flash-realtime-2026-02-10"
}
```
## 技术栈
- **Rust 2024 Edition**
- **windows** crate — Win32 API托盘图标、热键、SendInput 文字输入)
- **cpal** — WASAPI 麦克风采集
- **tokio + tokio-tungstenite** — 异步 WebSocket 客户端
- **rodio** — 音效播放
- **serde** — 配置序列化
## 系统要求
- Windows 10/11
- 麦克风
- 网络连接(用于访问阿里云 ASR API
## 许可证
GPL-3.0