微信里点“发现”,扫一下
二维码便可将本文分享至朋友圈。
当大模型续写《红楼梦》出现“贾宝玉倒拔垂杨柳”的荒诞情节,当AI推荐的“高性价比”咖啡机实为付费广告,这些看似技术失误的“AI幻觉”背后,暴露了深层的产业危机:语料污染乱象正持续发酵,语料质量已成为制约大模型发展的核心瓶颈。
语料污染乱象引发多领域深层隐忧
语料,全称语言材料,在大模型领域可以理解为AI的“学习资料”,涵盖文字、语音、视频等多种形式。如果把AI大模型比作一位厨师,那语料就相当于厨师手中掌握的食材。食材干净新鲜、品质优良,做出来的成品才安全可口,一旦食材发霉变质,做出来的就是“毒饭”。可以说,语料作为AI大模型训练的核心基础,其质量直接决定模型的可靠性与准确性。
中国信通院的一项实验揭示了令人警醒的现象:当在特定论坛连续发布百余条虚假信息后,主流大模型对相关问题的回答置信度(统计术语,指对某个事件或测量结果的信任程度)会显著提升。这意味着,互联网上大量未经过筛选的信息正在成为污染AI语料库的主要来源。
特别是一些平台的自媒体账号蓄意编造虚假内容,向AI大模型投喂错误答案;或是定向批量发布重复、无效内容对模型进行“洗脑”,这类通过恶意内容干扰AI学习过程的行为,本质上就是典型的数据“投毒”。360数字安全集团2024年发布的《大模型安全漏洞报告》也指出,数据“投毒”攻击已成为针对大模型最常见的攻击方式。有研究显示,即使数据集中仅有0.001%的虚假文本,也会让模型输出的有害内容增加7.2%。
值得警惕的是,在应用层面,语料污染的风险已渗透到关键领域。金融市场出现新型“AI杀猪盘”:不法分子预埋股票仓位后,利用AI批量炮制虚假信息污染语料库,再雇用“水军”扩散AI对话截图,诱导散户接盘。医疗健康领域同样危机四伏,若AI系统被注入伪科学语料,可能生成错误诊疗建议,甚至引发公共卫生危机。
高质量语料短缺成突出瓶颈
面对语料污染乱象,行业将审视目光投向大模型厂商自身的治理机制。多位业内人士指出,部分厂商未能有效履行主体责任,在追求模型规模与性能的同时,对训练及检索信源的质量审核投入不足,缺乏公开、透明的信源准入与分级标准,存在“重模型,轻数据”的倾向。
《经济参考报》等媒体调研显示,大模型给出的答案时常援引自媒体、商业推广或网络论坛中的未经严格审核的信息。这些信息缺乏权威背书,却可能被AI当作“事实依据”输出给用户。
与此同时,高质量、结构化、符合规范的中文语料供给相对稀缺,这从源头限制了大模型的认知天花板。
《中国科学院院刊》2025年刊文提到,从公开渠道获取大批量、高质量的中文语料数据难度较大。而且,高质量中文语料、科研成果等数据集开放程度低,企业用于训练的语料来源不清晰、权属不明确,导致企业更倾向于“自采自用”,数据流通机制难以形成。
更为严峻的是,可用于AI训练的高质量数据正面临枯竭风险。专注于AI发展趋势的EPOCH AI团队预测,人类可能最早在2026年陷入高质量文本数据短缺困境。当数据增速远赶不上模型迭代速度,“数据瓶颈”将成为制约AI大模型持续发展的硬约束。
多方协同施策,构建可信语料生态体系
面对语料危机,单纯的技术修补已不足以应对,需要从源头治理、监管约束、行业自律、生态构建等多维度发力,形成“技术防污+法律约束+生态共建”的综合治理格局。
在源头治理层面,筑牢语料筛选与净化的第一道防线。首要任务是建立权威信源“白名单”,优先抓取政府机构、权威媒体、学术期刊、正规科研机构的可信数据,通过多层次多源交叉验证和权威数据库比对,过滤可疑内容。同时,大模型平台应强化语料筛选机制,构建信息可信度分级体系和语料库健康指数监控机制,提升模型对虚假模式的识别能力。值得关注的是,已有企业在这一方向开始积极行动。2026年1月,明略科技开源了First Data知识库,聚合了全球1000余个政府与国际组织数据源,为AI系统提供经过权威机构背书的数据基础,从源头提升了数据可信度。
在监管层面,需完善法律法规,大幅提高违法成本。加快推进人工智能治理专门立法,细化对语料“投毒”等行为的法律定性。探索设立“人工智能伦理委员会”,负责技术备案审查、安全评估及责任追究。建立针对违法违规生成式AI服务的投诉举报机制,明确主管机关与受理流程,对经查属实的违法行为依法处罚。
在生态层面,应推动政产学研协同共建高质量语料库。国家层面可建设“1+N”架构的国家级语料库运营平台,实现公共数据、企业数据、专项数据的统筹汇聚与治理,打通跨领域多模态数据融合壁垒。同时,组建产业数据联盟,针对新一代信息技术、新能源等战略领域共建垂类共享数据库,提升语料库的专业性和丰富性。
大模型的发展,终究要回归“服务于人”的本质,而高质量可信语料就是这一本质的核心支撑。在技术创新的同时,唯有守住语料质量的底线,通过多方协同构建全方位的语料污染治理体系,才能让大模型摆脱语料污染的桎梏,真正实现技术价值与社会价值的统一,成为赋能数字经济发展、提升社会治理效能的强大引擎。(吴芃 王瑞琪)
关注中国财富公众号