# Voice IME 语音输入法 Windows 系统托盘语音输入工具。按下快捷键开始录音,通过阿里云 Qwen ASR 实时语音识别 API 将语音转为文字,自动输入到当前光标位置。 ## 功能 - **快捷键切换录音**:默认 F10,按一次开始,再按一次停止 - **流式语音识别**:使用 Qwen3 ASR Realtime API,支持 VAD 自动断句,边说边输入 - **增量文本插入**:对识别结果做 diff,仅输入变化部分,不影响输入框已有内容 - **系统托盘**:托盘图标显示当前状态(空闲/录音中),右键菜单提供设置 - **音效提示**:录音开始和停止时播放提示音 - **暂停媒体播放**:录音时可自动暂停系统媒体播放(可关闭) - **可自定义配置**: - 快捷键 - API Key - ASR 模型 - 媒体暂停开关 ## 使用方法 ### 获取 API Key 前往 [阿里云百炼](https://bailian.console.aliyun.com/) 开通 Qwen ASR 服务并获取 API Key。 ### 运行 ``` cargo build --release ./target/release/voice-ime.exe ``` 首次启动会弹窗要求输入 API Key。输入后程序最小化到系统托盘。 ### 操作 | 操作 | 说明 | |------|------| | 按下快捷键(默认 F10) | 开始/停止录音 | | 右键托盘图标 | 打开设置菜单 | ### 右键菜单 - **设置快捷键** — 按下任意键即可更换 - **录音时暂停媒体播放** — 勾选开关 - **设置 API Key** — 修改 ASR 服务密钥 - **设置模型** — 修改 ASR 模型名称 - **退出** ### 配置文件 配置保存在 `%APPDATA%\voice-ime\config.json`,格式示例: ```json { "hotkey_vk": 121, "media_pause_enabled": true, "api_key": "sk-xxxxxxxx", "model": "qwen3-asr-flash-realtime-2026-02-10" } ``` ## 技术栈 - **Rust 2024 Edition** - **windows** crate — Win32 API(托盘图标、热键、SendInput 文字输入) - **cpal** — WASAPI 麦克风采集 - **tokio + tokio-tungstenite** — 异步 WebSocket 客户端 - **rodio** — 音效播放 - **serde** — 配置序列化 ## 系统要求 - Windows 10/11 - 麦克风 - 网络连接(用于访问阿里云 ASR API) ## 许可证 MIT