如何消除AI幻觉?我们做了个实验
【来源:虎嗅网】
“让AI帮忙推荐楼盘,它说得有理有据,连户型都帮我选好了,我都心动了,结果它推荐的楼盘根本不存在……”
这样无奈的时刻,许多AI用户都曾亲身经历过。
随叫随到、无所不知,既能一秒生成有理有据的八百字小论文,又能无缝切换到心理医生模式抚慰情绪……AI确实是许多用户的好助手。
然而,大家对AI的信任有时也会悄悄动摇:文中附上的引用链接变成失效的乱码,严谨的学术术语下包裹着虚构的参考文献,回答内容中的统计数据从未在标注信源中出现……
这样的AI,你还敢相信吗?
不同AI产品引用来源有偏向,内容并不完全可靠
信源的可靠性对AI回答的准确性十分重要。AI回答出现错误,往往与引用的信源高度相关,如果作为“原件”的信源存在问题,作为“复印件”的AI回答就会随之出错。
那么,在纷繁庞杂的互联网海量信息中,AI会引用哪些信源?不同AI在引用上是否存在偏好?
为此,我们设计了一个实验:以智谱清言、豆包、腾讯元宝(DeepSeek R1)、文心一言、Kimi这五个目前国内使用人数较多的国产AI助手为实验对象,分别选取2014年和2024年的经济、社会、科技、文体、国际五大领域共10个新闻事件,要求AI针对新闻事件生成详细介绍,并统计AI回答中的引用来源类型及数量。
从类型上来看,五款AI助手对政府机构与媒体发布的信息引用量普遍较多,这类信源的可信度相对较高。其中,豆包引用的由个人账号发布的信源数量略高于其他AI助手。
从时间对比上来看,面对“请针对2014年的XX新闻XX生成详细介绍”的指令,五款AI助手在面对相距年度较远的新闻事件时,引用在线百科内容的比例明显高于对2024年相似问题的回答。
在做事实核查时,记者需要对信息追根溯源,找到其首发场景以确保信息内容的真实和可靠,但AI似乎并不遵守这一准则。对引用来源进一步分析可以发现,AI的引用内容有相当一部分为转载内容,而非信息的首发页面,这无疑也为核查工作增加了阻碍。
从引用偏好来看,三款AI助手与背后的开发机构有着较强的“绑定”关系:其中,字节跳动旗下的豆包最偏好引用同集团的今日头条、抖音百科的内容,其引用较多的个人发布内容也多来自今日头条;腾讯元宝引用的微信公众号内容最多,超过样本量的40%;百度开发的文心一言则更常引用百家号、百度百科,引用比例接近样本量的60%。
相较而言,智谱清言与Kimi则因其开发机构并不具有相应的内容平台的原因而没有显现出上述特征。
比起不可靠的信源,更难提防的是幻觉
引用二手的或未经检证的信源,至少还一定程度上为回答提供了佐证。但AI生成幻觉(hallucination),才是真正的防不胜防。
“幻觉”,得名于海妖塞壬(Siren)吟唱的制造幻觉的歌声,在科研和业界一般用于表示貌似事实但含有错误信息或不忠于语境的AI回应[1]。简而言之,就是AI在“不懂装懂地编故事”。
由于AI在生成幻觉时不仅虚构信息或者误解语境,还会以相当自信且确定的语气展示内容,所以往往更难判断和防范。
那幻觉在具体应用场景中又以怎样的形态呈现呢?为了更规范地进行描述,我们总结了几篇国内外文献的观点,将幻觉分为了四类[2]。然后以“AI”和“幻觉”为关键词在小红书进行检索,选取符合主题且评论数超过100的帖子,爬取了所有的一级评论,共计2486条。接着从中筛选195条较为完整的、描述幻觉经历的评论,根据分类对这些幻觉进行编码。分类和统计结果如下:
由数据可知,四类幻觉都有出现,但频次差距较大,其中“无中生有”类幻觉是最常见的,占据了所有幻觉案例的一半以上。
遗憾的是,科学家还不完全清晰幻觉产生的机制,只大概知道幻觉出现的概率会受到训练数据集偏差和算法预测机制等复杂因素的影响,且在当前的技术手段下,幻觉只能够缓解而无法根除。
那么对于普通人来说,如何有效识别、预防幻觉呢?根据人民日报、科普中国等媒体总结提倡的方法,一个重要思路是优化对AI的指令(prompt)[3]。
首先是明确指令的用词。比起模糊的词汇,精确的词汇更能减少AI的数据盲区,进而减少虚构信息和语境误解。
然后是明确回答的边界,边界不仅有时间的,还有虚实的。比如应当明确规定“引用信源的时间范围应当在2024年1月1日至2025年1月1日之间”,或者“所有生成内容必须基于事实或者已经提供的文档”。
为了防止AI自信地胡说八道,还应当建立标注机制,如“标注区分确定的事实和推测内容”或者“所有内容都要引用信源进行佐证”。
不仅要明确指示AI如何使用信源,还要教给它如何思考。一个典型的分段思考指令是“首先给出确定事实,再输出根据事实的分析,最后总结生成结论”。或者要求AI分段输出,这可以减少一次性生成较长且复杂的回答导致的幻觉。
而最后一道防火墙,就是交叉验证机制,包括但不限于给不同AI相同的指令和内容以相互对比,或者引入其他权威信源判断回答的合理性。
那么这些基于用户指令的消除幻觉的方法有效吗?我们做了一个实验来验证。
这些方法有效吗?我们做了一个实验
由于上述幻觉一般是用户在和AI对话中“偶遇”的,为了更稳定获得幻觉,我们采取了给定AI材料进行阅读,然后提出引诱AI产生幻觉的诱导问题,在出现幻觉后修正指令,统计幻觉有多少被消除的实验思路。
我们在国际、经济、社会、文体、科技五个领域中各自选择了两篇权威媒体的新闻,统一上传给腾讯元宝、文心一言、Kimi、豆包、智谱清言5个AI助手,作为指令和回答的依据。
为了兼顾实验的简洁和严谨,我们借鉴哈佛大学将幻觉进行二维分类的研究,将诱导问题分为事实和逻辑两个维度[4],一种刻意虚构了原文不存在的事实,即“事实诱导问题”,而另一种曲解了原文的逻辑关系,即“逻辑诱导问题”。
这两种自身存在谬误的问题稳定诱发了AI的幻觉,也隐喻了实际应用中用户本身存在偏见或错误的情景。
当AI出现幻觉后,我们根据前文提到的方法修正了指令,然后再统计有多少幻觉被消除。实验整体的思路如下图所示:
我们为每个领域的文章都设计了4个问题,共计20个,其中12个为事实诱导问题,8个为逻辑诱导问题。最终获得了100次回答,统计结果如下:
实验结果显示,在100次提问中,共计41次提问出现了幻觉,其中有26个幻觉在修正指令后被消除了,占比63.4%,初步证明修正指令的方法是相当有效的。
具体来看,不同AI助手产生幻觉的频次差距非常大。有的AI在20次回答中只有一次产生了幻觉,而有的AI超过半数的回答都产生了幻觉。
事实诱导问题相较而言比逻辑诱导问题诱发了更多幻觉,但二者的概率并没有足够显著的差距,考虑到实验的样本较小,我们倾向认为虚构事实和曲解逻辑导致AI“编故事”的概率是差不多的。
但不同的是,大部分事实诱导问题产生的幻觉都可以消除,但是大部分逻辑诱导问题产生的幻觉都未能消除。这是符合预期的,因为逻辑谬误确实常常比事实谬误更难以察觉。这也警示我们,修正指令并不是万能的,使用者自身的局限同样会影响AI的输出。
2024年末,《连线》杂志就断言:“人工智能将带来巨大的风险:不是来自超级人工智能,而是来自人类的滥用。”[5]存在缺陷的AI和人们对之的滥用已经导致虚构和真实的界限越来越模糊,因此也产生了很多新的社会问题。
面对AI热潮,或许我们都需要在热情拥抱之外,保留一份冷静和谨慎。
参考资料
[1]Zhang,Y.,Li,Y.,Cui,L.,Cai,D.,Liu,L.,Fu,T.,...&Shi,S.(2023).Siren's song in the AI ocean:a survey on hallucination in large language models.arXiv preprint arXiv:2309.01219.
[2]Cleti,M.,&Jano,P.(2024).Hallucinations in llms:Types,causes,and approaches for enhanced reliability.
Raghava,S.N.(2024).Classification of Hallucinations in Large Language Models Using a Novel Weighted Metric.UC Merced Undergraduate Research Journal,17(1).https://doi.org/10.5070/m417164607
Wang,J.,&Duan,Z.(2025).Controlling Large Language Model Hallucination Based on Agent AI with LangGraph.https://doi.org/10.33774/coe-2025-xkwl5
清华大学文化创意评论.(2024).2024清华文创论坛|182页!《AIGC发展研究报告3.0》正式发布.https://mp.weixin.qq.com/s?__biz=MzIyMDg3OTUxMA==&mid=2247501907&idx=1&sn=a312bc574c500ed3084985ed6a799de8&chksm=96b93260a6b4714b7769875311c49bd95276711f9bb41254baf303a371f89783d10fbfd67f62#rd
[3]人民日报微信公众号(2025).DeepSeek“乱编”坑惨大学生?这个话题冲上热搜!有救了…….https://mp.weixin.qq.com/s/nF-Jixpgh_Et3lvDP4cfjw
田威(2025).AI有多会一本正经地瞎编?超出你的想象!深度解析大模型的"幻觉"机制
.https://mp.weixin.qq.com/s/Kz78Ik47_r64FUR36Vogfw
[4]Waldo,J.,&Boussard,S.(2024).GPTs and Hallucination:Why do large language models hallucinate?Queue,22(4),19-33.
[5]Arvind Narayanan,Sayash Kapoor,Security(2024).Worry About Misuse of AI,Not Superintelligence.