分享
使用教程
输入“/”快速插入内容
使用教程
用户6051
用户6051
2025年12月26日修改
软件说明
PushToTalk 是一个高性能的桌面语音输入工具,集成了大语言模型(LLM)能力。支持两种工作模式:(按键均可自定义)
•
🎤 听写模式 - 传统的语音转文字功能
◦
按住模式:按住快捷键录音,松开停止
◦
松手模式:按一次 F2 开始录音,再按一次结束
•
🤖 AI 助手模式 - 语音控制文本处理
◦
无选中文本:Q&A 模式,提问获得答案
◦
选中文本:语音命令处理文本(翻译、润色、总结、扩写等)
快速开始
1.
下载并安装:
https://wwbvp.lanzouu.com/iaCOz3eiaazg
2.
参考
API KEY申请指南
申请千问/豆包任意主ASR,即可体验听写模式
3.
参考
AI助手模型推荐
申请longcat,即可体验 AI 助手模式
进阶玩法
LLM 智能润色功能
解决场景:用户说话冗余/语音转英文 等场景
配置:参考
润色模型推荐
完成对应设置
自定义快捷键
操作步骤:
1.
停止服务后,点击右上角设置按钮
2.
录入自己想要的按键
核心功能
•
⚡ 实时流式转录 - WebSocket 边录边传,极低延迟(< 500ms),松手即出字
•
🧠 LLM 智能后处理 - 内置"文本润色"、"邮件整理"、"中译英"等预设,支持自定义 Prompt
•
⌨️ 自定义快捷键 - 支持 73 种按键绑定(修饰键、字母、数字、功能键、方向键等)
•
🔄 多 ASR 引擎 - 支持阿里云 Qwen、豆包 Doubao、SiliconFlow SenseVoice
•
🛡️ 智能兜底 - 主引擎失败时自动切换到备用引擎,并行竞速
•
🎨 可视化反馈 - 录音状态悬浮窗,实时波形显示,三种视觉状态
•
🔊 音频反馈 - 录音开始/结束的清脆提示音,盲操也放心
•
📜 历史记录 - 自动保存转录历史,支持搜索、复制、清空
•
🚀 系统托盘 - 支持最小化到托盘、开机自启动
•
🔄 自动更新 - 内置 6 个镜像源,自动检查并安装更新
•
💾 多配置管理 - 支持保存多套 LLM 预设,通过界面快速切换不同场景