首页 > 要闻 > 正文

信源污染泛滥 AI大模型如何才能赢得信任？

2026-03-13 10:18 来源: 中国财富网作者： 0

分享至

微信扫一扫: 分享

微信里点“发现”，扫一下

二维码便可将本文分享至朋友圈。

当大模型续写《红楼梦》出现“贾宝玉倒拔垂杨柳”的荒诞情节，当AI推荐的“高性价比”咖啡机实为付费广告，这些看似技术失误的“AI幻觉”背后，暴露了深层的产业危机：语料污染乱象正持续发酵，语料质量已成为制约大模型发展的核心瓶颈。

语料污染乱象引发多领域深层隐忧

语料，全称语言材料，在大模型领域可以理解为AI的“学习资料”，涵盖文字、语音、视频等多种形式。如果把AI大模型比作一位厨师，那语料就相当于厨师手中掌握的食材。食材干净新鲜、品质优良，做出来的成品才安全可口，一旦食材发霉变质，做出来的就是“毒饭”。可以说，语料作为AI大模型训练的核心基础，其质量直接决定模型的可靠性与准确性。

中国信通院的一项实验揭示了令人警醒的现象：当在特定论坛连续发布百余条虚假信息后，主流大模型对相关问题的回答置信度（统计术语，指对某个事件或测量结果的信任程度）会显著提升。这意味着，互联网上大量未经过筛选的信息正在成为污染AI语料库的主要来源。

特别是一些平台的自媒体账号蓄意编造虚假内容，向AI大模型投喂错误答案；或是定向批量发布重复、无效内容对模型进行“洗脑”，这类通过恶意内容干扰AI学习过程的行为，本质上就是典型的数据“投毒”。360数字安全集团2024年发布的《大模型安全漏洞报告》也指出，数据“投毒”攻击已成为针对大模型最常见的攻击方式。有研究显示，即使数据集中仅有0.001%的虚假文本，也会让模型输出的有害内容增加7.2%。

值得警惕的是，在应用层面，语料污染的风险已渗透到关键领域。金融市场出现新型“AI杀猪盘”：不法分子预埋股票仓位后，利用AI批量炮制虚假信息污染语料库，再雇用“水军”扩散AI对话截图，诱导散户接盘。医疗健康领域同样危机四伏，若AI系统被注入伪科学语料，可能生成错误诊疗建议，甚至引发公共卫生危机。

高质量语料短缺成突出瓶颈

面对语料污染乱象，行业将审视目光投向大模型厂商自身的治理机制。多位业内人士指出，部分厂商未能有效履行主体责任，在追求模型规模与性能的同时，对训练及检索信源的质量审核投入不足，缺乏公开、透明的信源准入与分级标准，存在“重模型，轻数据”的倾向。

《经济参考报》等媒体调研显示，大模型给出的答案时常援引自媒体、商业推广或网络论坛中的未经严格审核的信息。这些信息缺乏权威背书，却可能被AI当作“事实依据”输出给用户。

与此同时，高质量、结构化、符合规范的中文语料供给相对稀缺，这从源头限制了大模型的认知天花板。

《中国科学院院刊》2025年刊文提到，从公开渠道获取大批量、高质量的中文语料数据难度较大。而且，高质量中文语料、科研成果等数据集开放程度低，企业用于训练的语料来源不清晰、权属不明确，导致企业更倾向于“自采自用”，数据流通机制难以形成。

更为严峻的是，可用于AI训练的高质量数据正面临枯竭风险。专注于AI发展趋势的EPOCH AI团队预测，人类可能最早在2026年陷入高质量文本数据短缺困境。当数据增速远赶不上模型迭代速度，“数据瓶颈”将成为制约AI大模型持续发展的硬约束。

多方协同施策，构建可信语料生态体系

面对语料危机，单纯的技术修补已不足以应对，需要从源头治理、监管约束、行业自律、生态构建等多维度发力，形成“技术防污+法律约束+生态共建”的综合治理格局。

在源头治理层面，筑牢语料筛选与净化的第一道防线。首要任务是建立权威信源“白名单”，优先抓取政府机构、权威媒体、学术期刊、正规科研机构的可信数据，通过多层次多源交叉验证和权威数据库比对，过滤可疑内容。同时，大模型平台应强化语料筛选机制，构建信息可信度分级体系和语料库健康指数监控机制，提升模型对虚假模式的识别能力。值得关注的是，已有企业在这一方向开始积极行动。2026年1月，明略科技开源了First Data知识库，聚合了全球1000余个政府与国际组织数据源，为AI系统提供经过权威机构背书的数据基础，从源头提升了数据可信度。

在监管层面，需完善法律法规，大幅提高违法成本。加快推进人工智能治理专门立法，细化对语料“投毒”等行为的法律定性。探索设立“人工智能伦理委员会”，负责技术备案审查、安全评估及责任追究。建立针对违法违规生成式AI服务的投诉举报机制，明确主管机关与受理流程，对经查属实的违法行为依法处罚。

在生态层面，应推动政产学研协同共建高质量语料库。国家层面可建设“1+N”架构的国家级语料库运营平台，实现公共数据、企业数据、专项数据的统筹汇聚与治理，打通跨领域多模态数据融合壁垒。同时，组建产业数据联盟，针对新一代信息技术、新能源等战略领域共建垂类共享数据库，提升语料库的专业性和丰富性。

大模型的发展，终究要回归“服务于人”的本质，而高质量可信语料就是这一本质的核心支撑。在技术创新的同时，唯有守住语料质量的底线，通过多方协同构建全方位的语料污染治理体系，才能让大模型摆脱语料污染的桎梏，真正实现技术价值与社会价值的统一，成为赋能数字经济发展、提升社会治理效能的强大引擎。（吴芃王瑞琪）

微信图片_20260316173259_1_64.jpg

责任编辑：谢玥

关注中国财富公众号

微信公众号

APP客户端

手机财富网

信源污染泛滥 AI大模型如何才能赢得信任？

微信扫一扫: 分享

精彩视频

热门专题

热搜资讯