2.1 KiB
2.1 KiB
Voice IME 语音输入法
Windows 系统托盘语音输入工具。按下快捷键开始录音,通过阿里云 Qwen ASR 实时语音识别 API 将语音转为文字,自动输入到当前光标位置。
功能
- 快捷键切换录音:默认 F10,按一次开始,再按一次停止
- 流式语音识别:使用 Qwen3 ASR Realtime API,支持 VAD 自动断句,边说边输入
- 增量文本插入:对识别结果做 diff,仅输入变化部分,不影响输入框已有内容
- 系统托盘:托盘图标显示当前状态(空闲/录音中),右键菜单提供设置
- 音效提示:录音开始和停止时播放提示音
- 暂停媒体播放:录音时可自动暂停系统媒体播放(可关闭)
- 可自定义配置:
- 快捷键
- API Key
- ASR 模型
- 媒体暂停开关
使用方法
获取 API Key
前往 阿里云百炼 开通 Qwen ASR 服务并获取 API Key。
运行
cargo build --release
./target/release/voice-ime.exe
首次启动会弹窗要求输入 API Key。输入后程序最小化到系统托盘。
操作
| 操作 | 说明 |
|---|---|
| 按下快捷键(默认 F10) | 开始/停止录音 |
| 右键托盘图标 | 打开设置菜单 |
右键菜单
- 设置快捷键 — 按下任意键即可更换
- 录音时暂停媒体播放 — 勾选开关
- 设置 API Key — 修改 ASR 服务密钥
- 设置模型 — 修改 ASR 模型名称
- 退出
配置文件
配置保存在 %APPDATA%\voice-ime\config.json,格式示例:
{
"hotkey_vk": 121,
"media_pause_enabled": true,
"api_key": "sk-xxxxxxxx",
"model": "qwen3-asr-flash-realtime-2026-02-10"
}
技术栈
- Rust 2024 Edition
- windows crate — Win32 API(托盘图标、热键、SendInput 文字输入)
- cpal — WASAPI 麦克风采集
- tokio + tokio-tungstenite — 异步 WebSocket 客户端
- rodio — 音效播放
- serde — 配置序列化
系统要求
- Windows 10/11
- 麦克风
- 网络连接(用于访问阿里云 ASR API)
许可证
GPL-3.0