80 lines
2.1 KiB
Markdown
80 lines
2.1 KiB
Markdown
# Voice IME 语音输入法
|
||
|
||
Windows 系统托盘语音输入工具。按下快捷键开始录音,通过阿里云 Qwen ASR 实时语音识别 API 将语音转为文字,自动输入到当前光标位置。
|
||
|
||
## 功能
|
||
|
||
- **快捷键切换录音**:默认 F10,按一次开始,再按一次停止
|
||
- **流式语音识别**:使用 Qwen3 ASR Realtime API,支持 VAD 自动断句,边说边输入
|
||
- **增量文本插入**:对识别结果做 diff,仅输入变化部分,不影响输入框已有内容
|
||
- **系统托盘**:托盘图标显示当前状态(空闲/录音中),右键菜单提供设置
|
||
- **音效提示**:录音开始和停止时播放提示音
|
||
- **暂停媒体播放**:录音时可自动暂停系统媒体播放(可关闭)
|
||
- **可自定义配置**:
|
||
- 快捷键
|
||
- API Key
|
||
- ASR 模型
|
||
- 媒体暂停开关
|
||
|
||
## 使用方法
|
||
|
||
### 获取 API Key
|
||
|
||
前往 [阿里云百炼](https://bailian.console.aliyun.com/) 开通 Qwen ASR 服务并获取 API Key。
|
||
|
||
### 运行
|
||
|
||
```
|
||
cargo build --release
|
||
./target/release/voice-ime.exe
|
||
```
|
||
|
||
首次启动会弹窗要求输入 API Key。输入后程序最小化到系统托盘。
|
||
|
||
### 操作
|
||
|
||
| 操作 | 说明 |
|
||
|------|------|
|
||
| 按下快捷键(默认 F10) | 开始/停止录音 |
|
||
| 右键托盘图标 | 打开设置菜单 |
|
||
|
||
### 右键菜单
|
||
|
||
- **设置快捷键** — 按下任意键即可更换
|
||
- **录音时暂停媒体播放** — 勾选开关
|
||
- **设置 API Key** — 修改 ASR 服务密钥
|
||
- **设置模型** — 修改 ASR 模型名称
|
||
- **退出**
|
||
|
||
### 配置文件
|
||
|
||
配置保存在 `%APPDATA%\voice-ime\config.json`,格式示例:
|
||
|
||
```json
|
||
{
|
||
"hotkey_vk": 121,
|
||
"media_pause_enabled": true,
|
||
"api_key": "sk-xxxxxxxx",
|
||
"model": "qwen3-asr-flash-realtime-2026-02-10"
|
||
}
|
||
```
|
||
|
||
## 技术栈
|
||
|
||
- **Rust 2024 Edition**
|
||
- **windows** crate — Win32 API(托盘图标、热键、SendInput 文字输入)
|
||
- **cpal** — WASAPI 麦克风采集
|
||
- **tokio + tokio-tungstenite** — 异步 WebSocket 客户端
|
||
- **rodio** — 音效播放
|
||
- **serde** — 配置序列化
|
||
|
||
## 系统要求
|
||
|
||
- Windows 10/11
|
||
- 麦克风
|
||
- 网络连接(用于访问阿里云 ASR API)
|
||
|
||
## 许可证
|
||
|
||
MIT
|