【来源:虎嗅网】

本文来自微信公众号:葬AI,作者:葬愛咸鱼,题图来自:视觉中国

思考一个问题:人类敲键盘输入信息,到底有多长历史?

答案是,150年。

1871年,美国人克里斯托弗·肖尔斯造出了世界上第一台实用打字机。

第二次工业革命的背景下,铸铁冶炼、冲压工艺,以及油墨带、橡胶等新技术,共同塑造了打字机的物理形态。与此同时,铁路与电报把商业网络铺向全美。合同、发票、报价等商业信息的传递需求暴涨。

手写太慢了,正常速度只有每分钟20~30个单词。市场迫切需要一种更高效的信息输入工具,于是第一款商业上成功的打字机诞生了。

直到今天,我们输入信息的主要方式,仍然是那台打字机的延续——键盘。连 QWERTY 键位布局,也沿用了 150 年前的设计。

但,键盘输入还适合我们这个时代吗?

我认为不适合了。敲键盘的信息输入速度太慢。

语音输入结合AI,信息效率更高,会取代键盘交互。

更重要的是,口语表达天然更符合人的思维方式。

敲键盘写作之前,大脑必须先把一句话想清楚,再一个字一个字敲出来。这是一个把思绪“凝结”为书面语的过程。但是,我们平时说话、思考,并不是这样运作的。

世界上大多数人写不出几千字的文章,但大家都能顺畅地聊天交流。既然能口头表达清晰,理论上就能写好文章。问题出在哪里呢?

问题就在于“凝结”思绪这个过程,很困难。

无论是手写还是敲键盘,都有一个大脑指挥手,再去执行,这样复杂的交互。

而说话大部分是下意识反应。比如我吃了水盆羊肉,绝大部分人写不出一千字讲水盆羊肉的文章。

但你问我水盆羊肉好不好吃,我能立即回答好吃,羊汤很鲜,羊肉嫩滑,辣子酸辣,月牙饼是刚出炉的麦粉香味。这些话是自然而然到嘴边的,不需要特意思考。

哪怕是复杂问题,比如你问我人类的本质是什么,我也能随口就说“人类的本质就是拉屎撒尿”“人类的本质就是存在”。这一两句话,我也不需要思考。

这些脱口而出的句子,零散、没有结构化,不像正式写作那样条理分明。

语音输入加AI,正好解决了这个问题。我们可以想到哪说到哪,再让 AI 负责结构化、理顺逻辑。

口语更自然、更原始,更接近真实的思考状态。语音输入大幅减少了我们大脑中“凝结”思绪的负担。

这几年来,一个非常明显的趋势是:全球人民都不再迷恋技巧复杂、包装精美的大制作内容了,而更愿意听播客、看短视频、刷社交媒体。

我们正在经历一场从书面语到口语的社会表达方式转变。

为什么?

因为很多书面语的“大制作”充满了陈词滥调。

比如电影、特稿、严肃文学,堆积了太多创作者的套路和潜规则。一部经典电影,它的叙事方式、拍摄手法,可能80%都是程式化的。

而短视频、短剧充满了意想不到的火花。哪个电影导演能想出“霸道总裁爱上绝经的我”这种剧情?想不出来的。但就是这种短视频,更加鲜活、质朴,更加接近人的原始想法。

播客也是一样。名人在文字采访里可以装深沉,用口语却必须通俗易懂。尤其是上播客,聊天时间拉长到一个多小时,听众很容易判断嘉宾到底有没有说真话。

在信息输入端,人们越来越青睐简洁直接的内容。这种输出端的口语化趋势,自然会倒逼信息输入端,要求更高效的输入方式,加速语音替代键盘。人们无需再用笨重的方式写,而是可以直接说。

这其实很像有秘书班子的领导。

一个市长要在明天的环保工作动员会上发言,他显然不会自己加班逐字敲发言稿。他会口头交代给秘书核心观点。他的语音输入可能就五六分钟。然后秘书就像一个大模型,调用和领导互动的历史(上下文),揣摩领导的风格偏好,再查查最新文件和报道(联网搜索),然后熬夜写稿。领导再提点修改意见。

这和我们使用AI没什么区别。在AI出现之前,领导已经把人作为AI了。

语音输入更符合人类自然的思考和口语表达习惯,绕开了将思绪“凝结”成书面文字的认知障碍,让“能说不能写”变成“能说就能写”。

所以,我觉得,语音输入比键盘交互更高级。

技术上,语音识别已十分成熟,大模型对语音转录的结构化同样成熟。

效率上,语音远胜键盘。手写,大约每分钟25~35字。键盘,每分钟60~90个字。而正常语速,200~250个字。语音输入的信息输入速度,远远高于键盘打字。

需求上,人们更需要直接、质朴的表达,内容消费也向口语化、真实化的方向转变。

这一切都指向一个明确的未来:语音输入会取代键盘交互。

这是由技术进步带来的信息交互方式改变。

如同冲压工艺和橡胶、油墨带催生了打字机。人们敲键盘开发的语音识别和LLM,也产生了新的信息交互方式——语音输入、AI结构化。

(本文配图由ChatGPT o3生成,Grimo、Gemini 2.5 Pro辅助写作。)

本文来自微信公众号:葬AI,作者:葬愛咸鱼