Windows11 自带的语音输入功能,有多好用?

在电脑上进行语音输入,一直以来是很多效率人士所追求的目标之一。

就在近几年,罗老师 的TNT(Talk N Touch)也号称要将语音输入作为一种「颠覆式」的人机交互手段。虽然,最后大家觉得这很扯,而且TNT用起来也很麻烦,但多少也激发了人们对语音提升输入效率的一些想象。

事实上,在专门的文字输入的场景下,例如。记者/作者/媒体编辑,或者需要制作文字报告的商务人士,对电脑进行大量文字输入是不可取代的工作之一,这时语音输入,就有很强的优势。

很久以前 IBM 有 ViaVoice 之类的专业语音输入工具,后来各种「输入法」也 逐渐融入了语音识别的功能, 再后来, 像 macOS,Windows 也逐渐融入了 语音识别 和 语音助手。

现在, Windows11 已经自带了语音输入,直接可以通过快捷键呼出,无论在哪个App 里面,只要有文字输入框就可随时使用。非常方便。

Windows11 的语音输入

在 Windows11 中,只要按下 Win键+ H ,系统就会立刻跳出一个语音输入的「悬浮窗」。当悬浮窗中出现 跳动的麦克风图标时,或者提示 Listening 字样的时候,我们就可以对着电脑说话了。Windows 会自动把语音转译为文字,显示在在我们的文字输入框里。

在 Windows 听写文字输入时,我们只要按下键盘上的任意一个键,语音输入就会被立刻打断停止。如果被键盘动作打断时,还有部分语音识别未完成,文字也未上屏幕的话,那么就再也不会被显示出来了,就像被「掐断」了一样。从这点来看,语音输入,更像是一个辅助功能,而键盘动作的优先级仍旧最高的。

值得一提的是,Windows的语音输入似乎比较聪明,可以进行 中英文混合识别 输入。

例如我现在说:

  • Tesla 似乎没有使用 Google和Microsoft 的核心地图技术」。这句话里的英文公司名称都可以被准确的识别出来。 又如:今天我去IKEA买了一些家具 里面 IKEA 就被很好的识别保留了下来。
  • Schedule time for this particular thought 。这样的纯英文短句也能被大概率识别。更长的句子可能就不行了。

另外,设置里面,系统还提供了「自动标点符号」之类的功能。

一些感想

  • Windows11 的语音输入已经非常成熟。无需事前训练,之前 Windows 还要让大家朗读几个例句让电脑识别我们的声音,现在已经不需要了。而且基于操作系统级别的集成,响应非常迅速,随处可用,随开随用。
  • 中英文的混合语音输入特别优秀。 really amazing。但更加适合说混合的长句,而不是短句和单词。
  • 对麦克风的拾音性能和电脑的联网能力有一定的要求。(可以在Windows的设置:系统》声音》属性》麦克风 里面配置)
  • 需要一个安静的私人空间。如果在嘈杂的大办公室里,效果肯定是不理想的。这点 和 当年TNT 所遇到的境况是一样。
  • 语音输入不能取代文字编辑,标点符号的运用也不尽如人意。 最终,还是需要我们逐字去校对和编排。但即使如此,也已经省去我们很多的手动输入过程了,节约了不少时间。
  • 我觉得,先口述一个大纲,再口述补充内容,然后再手动编辑,有可能是一个潜在的最佳实践。

最后

当热,macOS也有语音「听写」的能力,类似 Windows11 的语音输入。默认似乎是关闭的,我们可以在键盘的偏好设置里面打开并选择语种,然后就能和Windows一样进行语音输入了。

最最重要的是,所有系统下,「语音输入」面临的问题可能都是一样的,我们需要一个私密安静的空间(独立办公室?),这才是目前来看最珍贵的资源。