最近一直在探索更好地与 AI 交互的方式,语音输入是绕不开的一环。试用了几款主流工具后,有些意外发现。

试用了哪些工具
WhisperFlow — 语音转文字领域名气不小,英文识别准确度不错。但中文场景下,总觉得差点意思。
科大讯飞 — 中文输入法领域的老牌选手,中文识别确实厉害。但作为独立工具使用时,功能相对单一。
ChatGPT 原生语音输入 — 手机上偶尔用用。好处是直接和 AI 对话,省去复制粘贴。坏处是唤醒不够方便,体验不如原生输入法自然。
微信语音输入 — 日常聊天用着还行,但专门拿来做 AI 交互的输入工具,总觉得不够专业。
重点对比的几个维度
我在评测时主要看:
- 中英文支持情况
- 英文口音识别准确度
- 是否只是机械的逐字听写
大部分工具都是传统的 Dictation 模式:你说什么它写什么,一字不差。听起来很好,但实际用起来问题不少——口语化表达、语气词、重复的内容,全都原样保留,后期还得自己整理。
发现的黑马:Typeless(TalkBase)
从中文输入角度看,这个工具挺有意思。
它不是简单的逐字转录,而是先提取你的中心思想,再优化改写。虽然有时会改动原话,但基本能保证输入没有大错误。对于 AI 交互场景,这其实更实用——你需要的是准确传达意图,不是逐字记录口语。
另外还支持选中翻译、选中改写。这个功能我之前也想过要做,没想到别人已经做得很完善了。动手晚了。
订阅制,价格和 WhisperFlow Pro 差不多。
桌面端体验已经很自然
像 Typeless 这类工具,可以通过快捷键直接唤起,体验其实已经和原生输入法差不多了。不需要切换 App,随时按下快捷键就能开始说话,用完自动输入到当前光标位置。
真正的遗憾在移动端——手机上还没有这么自然的唤起方式。
关于 iPhone 上的理想场景
我一直在想能不能在 iPhone 上把 Apple Intelligence 利用起来。
理想场景是:直接用 Siri 唤醒,语音转文字后和 AI 全局交互。这其实是最自然的体验。
但目前发现 Apple Intelligence 在手机端的语音转文字功能仍受限于语言支持。中文场景下用起来还是有障碍。
用 ChatGPT App 的问题
如果在手机端用 ChatGPT 进行语音交互,有两个麻烦。
首先,唤醒方式不自然。不像 Siri 可以随时喊出来,ChatGPT 要先解锁、打开 App、点语音按钮。
其次,试过把 Action Button 映射到 ChatGPT 的 Shortcut,但锁屏状态下会遇到各种限制,体验不够顺滑。
目前的结论
还是希望原生功能可以进一步完善。毕竟原生使用的体验最自然,只是目前模型的能力还有待提高。
如果你主要用中文做 AI 交互输入,Typeless 值得一试。但如果追求「随时唤起」的自然体验,目前还没有完美方案,只能等各家把原生能力做得更好。
工具这东西,够用就好,但「能随时用」比「功能强大」更重要。