Voice-IME/README.md
2026-03-29 01:19:51 +08:00

2.1 KiB
Raw Blame History

Voice IME 语音输入法

Windows 系统托盘语音输入工具。按下快捷键开始录音,通过阿里云 Qwen ASR 实时语音识别 API 将语音转为文字,自动输入到当前光标位置。

功能

  • 快捷键切换录音:默认 F10按一次开始再按一次停止
  • 流式语音识别:使用 Qwen3 ASR Realtime API支持 VAD 自动断句,边说边输入
  • 增量文本插入:对识别结果做 diff仅输入变化部分不影响输入框已有内容
  • 系统托盘:托盘图标显示当前状态(空闲/录音中),右键菜单提供设置
  • 音效提示:录音开始和停止时播放提示音
  • 暂停媒体播放:录音时可自动暂停系统媒体播放(可关闭)
  • 可自定义配置
    • 快捷键
    • API Key
    • ASR 模型
    • 媒体暂停开关

使用方法

获取 API Key

前往 阿里云百炼 开通 Qwen ASR 服务并获取 API Key。

运行

cargo build --release
./target/release/voice-ime.exe

首次启动会弹窗要求输入 API Key。输入后程序最小化到系统托盘。

操作

操作 说明
按下快捷键(默认 F10 开始/停止录音
右键托盘图标 打开设置菜单

右键菜单

  • 设置快捷键 — 按下任意键即可更换
  • 录音时暂停媒体播放 — 勾选开关
  • 设置 API Key — 修改 ASR 服务密钥
  • 设置模型 — 修改 ASR 模型名称
  • 退出

配置文件

配置保存在 %APPDATA%\voice-ime\config.json,格式示例:

{
  "hotkey_vk": 121,
  "media_pause_enabled": true,
  "api_key": "sk-xxxxxxxx",
  "model": "qwen3-asr-flash-realtime-2026-02-10"
}

技术栈

  • Rust 2024 Edition
  • windows crate — Win32 API托盘图标、热键、SendInput 文字输入)
  • cpal — WASAPI 麦克风采集
  • tokio + tokio-tungstenite — 异步 WebSocket 客户端
  • rodio — 音效播放
  • serde — 配置序列化

系统要求

  • Windows 10/11
  • 麦克风
  • 网络连接(用于访问阿里云 ASR API

许可证

MIT