使用教程

用户6051

2025年12月26日修改

软件说明

PushToTalk 是一个高性能的桌面语音输入工具，集成了大语言模型（LLM）能力。支持两种工作模式：（按键均可自定义）​

•
🎤 听写模式 - 传统的语音转文字功能​
◦
按住模式：按住快捷键录音，松开停止​
◦
松手模式：按一次 F2 开始录音，再按一次结束​

•
🤖 AI 助手模式 - 语音控制文本处理​
◦
无选中文本：Q&A 模式，提问获得答案​
◦
选中文本：语音命令处理文本（翻译、润色、总结、扩写等）​

快速开始

2.
参考​API KEY申请指南 申请千问/豆包任意主ASR，即可体验听写模式​

3.
参考​AI助手模型推荐 申请longcat，即可体验 AI 助手模式​

进阶玩法

LLM 智能润色功能

解决场景：用户说话冗余/语音转英文等场景

配置：参考润色模型推荐完成对应设置

自定义快捷键

操作步骤：

1.
停止服务后，点击右上角设置按钮​

2.
录入自己想要的按键​

核心功能

•
⚡ 实时流式转录 - WebSocket 边录边传，极低延迟（< 500ms），松手即出字​

•
🧠 LLM 智能后处理 - 内置"文本润色"、"邮件整理"、"中译英"等预设，支持自定义 Prompt​

•
⌨️ 自定义快捷键 - 支持 73 种按键绑定（修饰键、字母、数字、功能键、方向键等）​

•
🔄 多 ASR 引擎 - 支持阿里云 Qwen、豆包 Doubao、SiliconFlow SenseVoice​

•
🛡️ 智能兜底 - 主引擎失败时自动切换到备用引擎，并行竞速​

•
🎨 可视化反馈 - 录音状态悬浮窗，实时波形显示，三种视觉状态​

•
🔊 音频反馈 - 录音开始/结束的清脆提示音，盲操也放心​

•
📜 历史记录 - 自动保存转录历史，支持搜索、复制、清空​

•
🚀 系统托盘 - 支持最小化到托盘、开机自启动​

•
🔄 自动更新 - 内置 6 个镜像源，自动检查并安装更新​

•
💾 多配置管理 - 支持保存多套 LLM 预设，通过界面快速切换不同场景​

使用教程​