AI爱胡说八道?那就为数据“降噪”
创始人
2026-01-30 19:49:26
0

文 | 佘宗明

这年头,比冷不丁梆梆就两拳掌门人张八旦更能“一本正经地胡说八道”的,是AI。

去年初,DeepSeek火了后,就有篇文章在网上热传,题目是“DeepSeek的胡编乱造,正在淹没中文互联网”。

爱胡编乱造的,不只是DeepSeek。如果说幻觉是病,那它称得上是大模型的通病。

前不久,香港大学人工智能评估实验室(AIEL)就发布报告称,大模型普遍存在“严守指令但易虚构事实”倾向,事实可靠性仍是全球大模型共同的短板。

更早之前,去年2月,清华大学新媒沈阳团队的报告指出,市场上多个热门大模型在事实性幻觉评测中幻觉率超过19%。

可以说,生成式AI将互联网时代的“信息过载,事实稀缺”情形进行了几何级放大。

那怎么让AI离加冕“事实派”近些,离“满嘴跑火车”远些?

打破大模型“GIGO(即垃圾进Garbage In,垃圾出Garbage Out)”魔咒,至关重要。

究其前提,就是要回归“Clean Data > Big Model(高质量数据优于大模型)”的逻辑基点。

01

为什么AI给出的答案总是“听着像真的,其实是编的”?它怎么就这么爱胡编乱造?

去年9月,OpenAI在论文《为什么语言模型会产生幻觉》中对此做出了分析,我的总结是:因为大语言模型(LLM)“本性难移”。

大模型本质上是个“随机鹦鹉”,运行底层逻辑是“下一个词元预测”(Next Token Prediction),这决定了,它是个贝叶斯预测大师,而非事实考证者。

其长处在于,能根据高频统计关联对强规律性知识(如语法规则、编程程式、基础常识)进行快速“复现”。打个比方,你问它“法国首都是哪里”,它会因为“法国首都巴黎”几个字在海量文本中以固定搭配高频出现,迅速回答“巴黎”。

问题是,世界上绝大多数知识都是出现频次低的“长尾事实”(Long-tail Facts),如数字力场公众号创立时间,就不是规律性知识。按图灵奖得主杨立昆的说法,大模型是高级复读机,“擅长模仿人类对话模式,却不懂背后的逻辑与含义。”碰到这类问题,它经常蒙圈。

由于训练目标是“最大化生成文本序列的联合概率”,不包含任何关于真实性的直接约束,对于不懂的问题,它倾向于编个像样的,而非坦承其短地说“我不知道”。

大模型幻觉问题连着的,是训练机制问题,更是数据质量问题——“真数据不够,脏数据来凑”之下,必然会出现上游水源(输入语料)污染导致下游水流(输出结果)浑浊的情况。

都知道,大模型的三大要素是算法、算力和数据,数据(语料)是源头活水。前两者可以靠优化,后者主要靠积累。

随着可用真实数据渐次枯竭,大模型如今普遍患上了高质量数据饥渴症。

不少大模型用合成数据解渴,想靠AI生成内容来推倒自己撞上的那堵“数据墙”。

但这很可能导致“模型崩溃(Model Collapse)”——2024年7月,《自然》杂志就对此发出预警,称随着模型继续在模型本身生成的越来越不准确的文本上进行训练,这类递归循环会导致模型退化,AI很可能“在短短几代内将原始内容迭代成无法挽回的胡言乱语。”

结果就是,AI“训”AI,越训越傻。

02

在幻觉问题上,“机器学习之父”迈克尔·欧文·乔丹曾表示,“单纯依靠暴力计算(Brute Force)无法解决智能的根本问题,反而可能因为数据噪声而产生系统性风险。”

诚如此言,大模型幻觉带来的破坏力不容小觑,一个程序bug也许会导致系统崩溃,但那是显性的,大模型幻觉则颇具隐蔽性,隐蔽性会强化其危害性。

首先,在医疗诊断、法律咨询、金融决策等边际容错率极低的领域,出现任何幻觉,都可能酿成严重后果,导致生命财产损失。

其次,AI胡编乱造容易导致错误信息谬种流传,带来社会空间信息污染,还消耗大众的技术信任度,拉低许多人的接受意愿。

还有,流沙上没法建大厦,幻觉问题若得不到有效控制,大模型的应用落地也会受影响。

大模型的进化形态,是成为能够主动执行复杂任务的智能体(Agent),但前置条件是可靠。毕竟,谁也无法安心委托那些可能会凭空捏造联系人信息、杜撰财报数据的AI助理,来处理重要事务。

时至今日,幻觉已从技术瑕疵演变为AI产业化应用的现实掣肘。

当此之时,正如芯片产业已走出“兆赫兹竞赛”迷思那样,AI行业也该跳出“数据规模崇拜”和“参数军备竞赛热潮”。

从百亿到千亿再到万亿,过去几年,大模型领域的参数规模持续被刷新,仿佛数据量越大模型性能就越好。这在初期确实成立,参数也并非不重要,但随着“更大的模型=更强的智能”等式在边际效用递减中失效,回归数据质量重要性高于数据集规模的理性判断,正当其时。中国最大的数据智能服务商明略科技提出“Clean Data > Big Model”,就意在于此。

要知道,现在AI行业已进入产业化落地阶段,用户(特别是企业级用户)在意的不是参数数字,而是模型在实际任务中表现出的可用性、可靠性——他们需要的是“可信AI”。

而控制幻觉,就是“可信AI”价值凸显期的决定性竞争维度。数据可信度也已取代数据集规模,成为大模型的核心竞争力。

03

正因来得普遍又极具危害,大模型幻觉不是个可以打个补丁的小bug,而是需要从系统层面去革新重构的根本性问题。

知名AI科学家、斯坦福大学教授吴恩达提出的“以数据为中心的AI(Data-Centric AI)”理念,就来得颇具针对性。他认为,AI模型开发过程中,业界过分关注模型架构的优化,却忽视了系统性地工程化数据质量。“如果80%的机器学习工作是数据准备,那么确保数据质量应该是团队最重要的工作。”

“以数据为中心的AI”跟传统的AI模型搭建范式“以模型为中心的AI(Model-centric AI)”有别,后者主要工作是改进模型参数,前者主要目标则是改善数据质量——“AI教母”李飞飞、AI大神安德烈·卡帕斯此前做的,其实就与此相关。

明略科技基于“Clean Data > Big Model”技术哲学系统性地发掘聚合跨领域的高可信信源,推出目前全球范围内最全面、最权威、最结构化数据源知识库——First Data,也与之呼应。

需要看到的是,对很多企业来说,获取干净、权威、实时的数据比训练一个模型要难得多。

毕竟,大量高价值的权威数据“沉睡”在政府网站深处、PDF报告或复杂的交互式图表中,由于API接口众多、格式各异、标准不一,很难被机器自动解析。

First Data拟收录全球1000余个权威数据源(涵盖国际组织、各国政府、顶级学术机构),将分散、非标、难复用的原始内容,转化为可追溯、可验证、可引用的核心事实,不啻为大模型行业搭建了“可信数据源基础设施”,它不直接提供“数据”,但能解决“数据去哪找”问题。

《自然》杂志提到,提升模型准确性的重要途径是,访问原始数据源并在递归训练的模型中仔细过滤数据。

而First Data坚持100% URL验证标准,每个数据源都有完整文档,确保数据源真实可用。这直接回应了AI安全伦理范畴的“数据溯源(Data Provenance)”关切,能从源头阻断“幻觉引用”的可能性。

举个例子,用户问“2025年前三季度中国AI产业产值是多少?”通常情况下,AI会回忆训练数据再生成像样答案;有了数据索引导航工具First Data后,AI则可以指引用户前往权威信源处获取相关数据——在此过程中,First Data会充分顾及数据调用与数据跨境传输安全,推荐合规可靠的权威网站,并提供文件获取的逐步导航索引。

First Data的亮点不只是强调“数据溯源”,还有“权重分级”——那些数据源包含了访问链接并标注了API接口信息、更新频率、覆盖范围,更引入了 “六大权威等级分类”的创新做法。

这无疑是有的放矢:信源跟信源之间也有可信度差异。按权威程度分级,可以凸显高可信信源的优先序。

就拿查询 “发展中国家经济数据” 来讲,First Data会优先推荐AI去世界银行官网而非商业资讯公司报告找数据,让AI尽可能避免低质量信息干扰。

舍此之外,开放开源也是First Data的醒目看点。1月28日,明略科技宣布正式开源First Data。这显然是盘大棋。

从商业竞争角度看,此举似乎有些“不值当”,但若是从深远层面看,以目前最宽松的开源协议MIT协议开源,是利他以自利。

一方面,这能丰富权威数据库。为了确保数据可信,Google Knowledge Graph此前通过语义搜索和NLP技术持续改进信息准确性,First Data则能走得更远——依托开源社区协作跟透明溯源机制,它可以建立“分布式数据源账本”。当全球数据科学家都能参与审核、补充数据源时,其可信度会远高于单一企业维护的数据库。

另一方面,这能带来技术普惠。First Data开源就像针对模型幻觉流行病的数字疫苗接种计划,让AI行业切实受益。

04

毫无疑问,在用户“苦AI胡编乱造久矣”的今天,AI行业需要可信数据底座。

而First Data建立的结构化元数据体系,就以可靠数据为锚,为整个行业提供了对抗“模型崩溃”的参照系,也为企业级RAG应用带来了权威数据层的即插即用解决方案。

对很多企业而言,它们无需自己去搭建数据基础设施,可以直接利用First Data构建的权威数据源网络,搭建可信的AI应用原型。

可以预见,有高质量数据加持,很多AI产品也能在降低幻觉中提升“办实事”能力,实现从ChatBot向智能代理的转变,伴随而至的,还有用户信任的提升:当AI推荐医疗方案引用的是权威医学数据库,预测经济走势依据是官方结构化数据时,大家自然更愿意采信。

着眼长远看,First Data开源的价值,还能朝填补全球数据源目录拼图中的“中国缺角”、为全球AI基础设施打造贡献“中国力量”两个层面延伸。

长期以来,国外大模型由于缺乏一手、权威、结构化的数据源,在被问到中国经济相关问题时,输出的答案经常并不标准,使得很多人只能雾里看花、产生认知偏差。

First Data项目代码库虽然本身不存储、不包含、不直接提供任何原始数据文件,但收录了公开权威数据源,还采用了中英双语元数据设计,可提供相关数据的推荐查询路径。

这么一来,用户通过大模型的指引,在权威信源处按图索骥获得可信数据后,势必能够提升全球使用者及AI模型对中国经济社会发展的理解深度,让更多人能直接准确地了解到中国经济的真实脉动。

跟西方科技巨头倾向于构建封闭的数据护城河不同,中国企业将全球最全权威数据源知识库开源,就如同对“中国开源VS美国闭源”模型发展路径里“中国路线”的致敬,也体现出了鲜明的价值取向:AI时代,数据可以是公共的资源,而非垄断的筹码。

从Linux到TCP/IP,历史表明,真正的数字基础设施都是开源的,只有开源,才能形成生态,只有形成生态,才能定义标准。中国企业以开源方式为全球AI行业完善贡献“中国维度”的数据标准,也是在把握主动权。

而这些价值的要义,就在于“真实”二字。

在今天,信息严重过载,事实极度稀缺,已构成了我们所处的信息环境。我们比任何时候都更需要可靠数据锚点,确保AI不是胡编乱造,而是言必有据。

First Data给出的解法便是:若AI爱胡编乱造,那就为数据“降噪”。到头来,其开源的深层价值,与其说是提供了大量权威数据源的工具箱,不如说是申明了某种技术伦理——

AI的核心价值点,不在能说得多像,在能说得多准;不在能生成多少内容,而在能创造多少可信价值。故而,数据可信度优于数据规模,信息可靠性重过生成流畅性。

真善美,真是善的前提。AI向善,先要向真。

相关内容