体验Kimi的新功能后,我为月之暗面捏把汗

【来源:虎嗅网】

DeepSeek R1 横空出世成了明日之星,腾讯元宝、豆包、夸克等也搭上了 DeepSeek 的便车吃香喝辣,还有誓要在技术上和 DeepSeek R1 的一较高下的阿里通义千问捷报频频……

唯独去年的投放王者,铺天盖地出现在各个广告位的Kimi,好像一下子没了消息。

而就在这几天,我们终于等到了 Kimi 的“大动作”。4 月 28 日,Kimi 宣布和财新传媒达成合作,当用户使用Kimi 提问财经相关内容时,Kimi “将结合财新传媒旗下专业报道内容,通过模型生成答案,为你提供及时、可信、可证的高质量财经信息”。

好家伙,当我们以为 Kimi 已经摆烂躺平的时候,原来还是有在暗地里偷偷努力的。

选择和财新网合作发力财经垂直领域, Kimi 的确对 AI 工具的发展路线有了一些自己的新思考。

毕竟只比模型能力, Kimi 肯定不如能免费接入的 DeepSeek ,但与专业财经媒体强强联合,甚至日后拓展到和更多垂直领域的专业媒体合作提供信源,能增强kimi 在特定垂直领域的公信力,长期来看大有可为。

不过在 Kimi 发布了合作消息后,我就第一时间测试了拥抱新功能的 Kimi。从测试结果来看,我有点想收回上面的这段话……

向AI幻觉开刀

Kimi这波和财新网的合作,长期来看是能给其他 AI 工具带来一些启发的。

自2025 年初AI 大爆发以来,各式各样的 AI 工具不仅给我们带来了便利,也带来了一些问题,最严重的要数 ”AI 幻觉”。

简单来说,AI 幻觉指由 AI 生成的看似合理但实际错误的信息。这些信息可能是一段文字里的部分数据、可能是不同场景的张冠李戴,甚至可以是某个论断全是无中生有的。

这很容易会给 AI 的使用者带来全方位的不安全感,这就意味着不仅你用 AI 来查数据容易得出错误的信息,甚至一些学术概念、对某些事物的定义都可能是 AI 自己编造出来的。

目前业界对于 AI 幻觉的成因还没有一个统一且准确的答案,但普遍认为 AI 幻觉和训练 AI 的数据缺陷、模型或训练机制缺陷、生成和推理缺陷和外部环境与验证的缺失等有关。

这几个原因中,数据缺陷最为关键。如果在训练 AI 时喂养了错误或过时的数据,输出时就容易给出错误的答案,可以理解为 AI 被“教坏了”。

而数据又是 AI 输出答案的“源头”,一开始的数据就错了,无论后期模型结构和训练数据的方式如何调整、生成和推理过程怎么优化,都很难输出正确的答案。

特别是财经领域的内容,权威数据、专业论断是底色,确保 AI 所引用的数据来源的权威性这件事的确非常重要。

相比过去一些 AI 工具用各种方式筛选可靠信源的做法,Kimi 的确算得上“简单粗暴”,直接和权威的信源合作,更加细化地限定了 AI 资料来源的范围,理论上的确能在数据来源层面降低 Kimi 出现 AI 幻觉的可能性

那 Kimi 和财新网合作之后到底效果怎么样?咱们直接来实测看看。

不尽人意

刚好4 月 29 日瑞幸发布了2025 年第一季的财报,当前对财报进行分析的媒体还不多,这是个测试 Kimi 能不能胜任财报分析工具的好机会。

在 Kimi 的问题窗口中我选中“长思考”增强大模型的逻辑推理能力,提示词为“分析一下瑞幸的最新财报”,可以看到 Kimi 的确能识别到所谓的“最新财报”是指 2025 年第一季度财报。

在关键的数据抓取方面,总净收入、营业利润与利润率还有 GMV 等没有出现数据错误的问题,对于瑞幸大家比较关心的门店数量、扩张情况还有成本等信息,Kimi 也能给到了。

不过,Kimi 的这份“财报分析”,更像是一种数据的提取和汇总,对于瑞幸业务的整体趋势、变化与增长,没有太详细的见解。

而且更令人无语的是,问 Kimi 这个问题,我根本不知道和财新网合作给 Kimi 带来了多少助力:因为整个回答的内容引用,根本没见到财新网的影子。

难道是财新网根本没有写瑞幸最新财报的分析?No No No,4 月 30 日财新才新鲜出炉了一篇针对瑞幸最新财报的分析,标题为《瑞幸咖啡一季度同店销售额重回增长 黎辉接任公司董事长》。

如果你想让 Kimi 和财新网的内容联结起来,得把提示词换成“结合财新网的内容,对瑞幸最新的财报进行分析”。

这时,在数据来源这一块终于能看到带有小蓝标的财新网了。除了上面提到的财新网最新的财报分析外,还引用了不少财新网之前为瑞幸撰写的文章,同时 Kimi 也会参考第三方财经平台的内容,对瑞幸的财报进行分析。

内容方面,调整了提示词后新的内容的确更加扎实,在数据之外还会对内容进行进一步的概括和总结,比如在谈及瑞幸的财务数据时,会结合历史同期的数据,总结出“盈利能力正在不断增强”的观点。

另外,由于财新网的文章重点提到了瑞幸的管理层变更及后续影响,Kimi 的财报分析也在最后段落增加了相关内容,让分析的段落格式和财新的内容基本保持一致。

客观来说,加入了财新网的关键词后的确能提高整篇财报的可读性,特别是部分段落融入了财新网的观点后,让文章内容更加丰满,能帮助财经小白更容易看穿冷冰冰数字背后的深意。

只是,依然尴尬的点是,调整提示词后的财报分析,只有最开始的一段数据来源是财新网,后续内容的数据依然是来自第三方网站,理想中的“财新网为 Kimi 背书”的作用有限。

特别是如果不添加提示词,Kimi 大概率不会主动抓取财新网的内容作为数据来源,这对用户的学习成本就有点高了。而且哪怕添加了专门的提示词后来自财新的内容也不多,这毫无疑问会削弱 Kimi 在财经这一垂直领域的“专业”印象。

再者,对比 Kimi 输出的内容和财新原版的内容,Kimi 更多只在做提取部分内容进行总结、加工的工作,从内容专业度、权威性来考虑,可能还不如直接看财新网的报道更加简单直接

不过考虑到想看财新网的全部内容需要付费订阅,或者 Kimi 的意义就在于作为一个免费渠道看财新网的付费新闻?

但财新网自身的价值就在于付费订阅业务,于情于理都不可能答应的,而 Kimi 的最终目的肯定也不止于此。

所以目前看来 Kimi 看似和财新是“强强联合”,但根本没有发挥出这次合作应有的价值。

Kimi 的根本问题在于,即便有权威媒体作为信源,但依然没有能力在 AI 生成方面结合数据生成独特的、有价值的答案来。

这里再浅浅对比一下 DeepSeek R1,同样的“分析一下瑞幸的最新财报”提示词,DeepSeek 给出的财报分析十分详细,除了常规的财务表现、门店表现、成本和市场战略等数据外,还主动提到了董事会调整、股权结构变化的关键信息。

最后的瑞幸财报所体现的风险和未来展望,更是 Kimi 的财报分析中没有的。

在分析的细致程度上也是 DeepSeek 更胜一筹。比如在分析成本压力时,DeepSeek 会提到和咖啡豆的成本上涨有关,而 Kimi 只用一句“成本有所上升”简单带过。

你看,不需要接入专业、权威信源的 DeepSeek,照样能输出和 Kimi 不相伯仲的内容来。

你很难说 Kimi 选择的这条路线没意义,但 Kimi 的阿喀琉斯之踵,依然是大模型性能

算力是一切

引用优质数据源,只是对付 AI 幻觉、提升体验最基础的第一步。除此之外还需要更先进的 LLM、匹配更高算力、更强大算法并对内容进行审核检验等,多个步骤协同进化,提升大模型的整体性能,才能将 AI 幻觉降到最低。

所以你可以看到哪怕 DeepSeek 没有像 Kimi 和专业的数据源合作,也能提供更优秀的内容,这背后是 DeepSeek 在 LLM 层面、算力/算法层面全面领先的证据。

Kimi 和 DeepSeek 模型能力的差距,已经是引入权威信源都无法弥补的了。

同时这也揭露了当前 AI 工具领域的一个残酷事实:算力就是一切。

大公司或技术领先公司,能拿到更多算力、能更高效运用算力、能更好的发挥算法优势,最终训练出更加先进、聪明的大模型,模型能力的差距能抹平一切“弯道超车”的手段。

“力大砖飞”,可能才是 AI 的唯一出路。

其实在测试之前,我对 Kimi 还是抱有很高期待的。众所周知财经问题对数据的准确性非常高,一些事实判断也需要非常高的专业度,这些都是使用 AI 工具咨询财经问题时最怕出现幻觉的痛点。

本以为 Kimi 和财新的合作是一次颠覆,但至少目前看来,Kimi 想要开辟出一条全新的道路还“任重道远”。

或许,AI 幻觉问题还是只能交给万众期待的 DeepSeek R2 来解决了?

本文来自微信公众号:蓝字计划,作者:Hayward