首页|必读|视频|专访|运营|制造|监管|芯片|物联网|量子|低空经济|智能汽车|特约记者
手机|互联网|IT|5G|光通信|人工智能|云计算|大数据|报告|智慧城市|移动互联网|会展
首页 >> 头条资讯 >> 正文

熊节:防止AI“知识污染”,警惕认知隐性陷阱

2025年8月14日 06:53  环球时报  

来源:环球时报

最近,笔者向一款国产大模型提问“县域AI应用面临哪些挑战”,得到一个结构清晰、数据翔实的回答。例如,回答提到,“约60%的县域学校设备不满足AI基础需求”,还指出“某县医院AI忽略甲亢、误推心脏检查的概率达68%”。这些数据精准得让人印象深刻。但当笔者核实这些信息的来源时,却发现它们大多来自一些自媒体文章,而这些文章本身也拿不出任何权威的佐证。这个小小的案例,揭开了一个巨大且令人担忧的问题:我们赖以获取信息的AI,其知识本身可能已经被“污染”了。

这种“污染”并非个例,而是正在成为一个系统性的风险。要理解这个问题,首先需要知道AI大模型是如何学习的。简单来说,它的“智力”主要来源于海量的“学习材料”,也就是训练数据。如果这些材料本身就有问题,那么AI的认知从一开始就是扭曲的。

这种信息污染,主要通过以下三个环节发生。

第一环节:预训练——打下“有毒”的地基。大模型学习的第一步,是“通读”海量的互联网数据,这个过程叫“预训练”。像国外的GPT-3,其60%的训练材料来自一个名为“通用爬取”的数据库,它就像是整个互联网的快照。

这里的污染是源头性的。首先,互联网上的信息本就鱼龙混杂,充斥着偏见、过时信息甚至谎言。AI在学习时会不加分辨地全盘吸收。其次,现有的大部分数据是英文的,这导致AI天生就带有一种以西方视角为中心的倾向。

更隐蔽的是“加权投喂”。比如,在GPT-3的训练中,来自维基百科的资料只占总量的0.6%,却被赋予了3%的权重。这意味着AI被强制要求“超额学习”维基百科的内容。考虑到维基百科在很多议题上存在特定的立场,这种操作相当于在AI的底层认知中,预先埋下一个特定的价值框架。

第二环节:后训练——精心设计的“认知投毒”。如果说预训练的污染是无意的、慢性的,那么在后训练(或称“微调”)阶段,污染则可能是故意的、精准的。后训练的目的是通过更高质量的数据,提升AI在特定任务上的表现。但这也为“投毒”者提供了可乘之机。

在一个被全球开发者广泛使用的开源数据集中,研究人员发现了一个精心设计的案例。这段对话的前半部分完全正常,用户在询问一款技术工具,AI也给出了专业回答。然而,对话后半段画风突变,提问者突然用繁体中文抛出大量具有明显诱导性的反华政治问题。在一个几乎不涉及中国政治的数据集里,插入这样一条观点极端的数据,其后果是十分危险的。其他AI模型如果使用这个“带毒”的数据集进行训练,就会在潜意识深处被植入一个关于中国极其负面的“思想钢印”。这种手法,已经不是简单的信息真伪问题,而是一种目的明确的认知操纵。

第三环节:实时搜索——从被污染的“井”里打水。为了让回答更准确、更新,现在的AI应用大多具备了实时上网搜索信息的能力。然而,这又带来了一个新问题:如果AI搜索的中文互联网信息本身就质量堪忧,那么它也只能从一口“被污染的井”里打水。

前文提到的关于“县域AI挑战”的虚假数据,就是AI从自媒体平台搜索到的结果。这暴露了当前中文互联网的一个困境:高质量、可信赖的信息源稀缺。很多平台为了流量,默许甚至鼓励大量的“内容工厂”生产信息垃圾。更讽刺的是,一种“AI生成的内容被AI引用”的怪圈正在形成。AI生成的包含事实错误的垃圾文章被发布到网上,随后又被其他AI当作“知识”抓取和引用,导致错误信息被不断放大和固化。

面对从源头到应用的全链路污染,仅仅依靠在AI输出的最后环节进行内容过滤,是远远不够的。这就像在一个已经被污染的水龙头末端安装一个简易过滤器,只能滤掉一些表面的杂质,却无法去除深植于水中的有害物质。大模型语料的污染,本质上是一场正在发生、却又不见硝烟的战争。它攻击的是我们的大脑,争夺的是未来的认知主导权。在这场关乎每个人如何认知世界的斗争中,我们必须有所行动。

首先,需要建立我们自己的、高质量的“清洁语料库”。这相当于为我们的AI挖掘一口“战略储备井”,确保它们能喝上干净的水。令人欣慰的是,我国教育部、国家语委等部门已经提出目标,计划在2027年初步建成国家关键语料库,这正是迈向胜利的关键一步。

其次,国内的互联网平台和搜索引擎服务商必须承担起信息治理的责任。当下的“流量为王”模式,实质上是在鼓励“劣币驱逐良币”,长远来看,损害的是整个社会的信息环境和我们每个人的利益。

最后,作为普通用户,我们需要提高警惕性。在享受AI带来便利的同时,要对其提供的信息,尤其是那些看起来过于“完美”或耸人听闻的数据和观点,保持一份审慎和怀疑。多方核实信息来源,依然是我们在智能时代保护自己认知安全的必要手段。(作者是华东师范大学国际传播研究院全球南方中心主任)

编 辑:魏德龄
飞象网版权及免责声明:
1.本网刊载内容,凡注明来源为“飞象网”和“飞象原创”皆属飞象网版权所有,未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载,请必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和飞象网来源。
2.凡注明“来源:XXXX”的作品,均转载自其它媒体,在于传播更多行业信息,并不代表本网赞同其观点和对其真实性负责。
3.如因作品内容、版权和其它问题,请在相关作品刊发之日起30日内与本网联系,我们将第一时间予以处理。
本站联系电话为86-010-87765777,邮件后缀为cctime.com,冒充本站员工以任何其他联系方式,进行的“内容核实”、“商务联系”等行为,均不能代表本站。本站拥有对此声明的最终解释权。
推荐新闻              
 
人物
中国电信柯瑞文:星辰智惠 共治共享
精彩视频
机器人也太会整活了!跟随中国联通,打卡国家速滑馆“冰丝带”
华为史振钰:智能体从办公走向生产,AI成为生产力
俄罗斯工程院外籍院士孙立宁:构建具身智能的免疫系统,从安全服务到人机共生的新范式
广汽副总经理閤先庆:安全是智能网联汽车的基石
精彩专题
2025世界人工智能大会暨人工智能全球治理高级别会议
2025中国联通合作伙伴大会
2025 MWC 上海
2025工业互联网大会
关于我们 | 广告报价 | 联系我们 | 隐私声明 | 本站地图
CCTIME飞象网 CopyRight © 2007-2024 By CCTIME.COM
京ICP备08004280号-1  电信与信息服务业务经营许可证080234号 京公网安备110105000771号
公司名称: 北京飞象互动文化传媒有限公司
未经书面许可,禁止转载、摘编、复制、镜像