AI知识网,一站式人工智能学习平台 | 从入门到精通的 AI 知识库 AI知识网,一站式人工智能学习平台 | 从入门到精通的 AI 知识库
  • 主页
  • AI动态
  • PHP
  • QQ:420220301
    Wechat:w420220301
QQ:420220301
Wechat:w420220301
  • 主页
  • AI动态
  • PHP
首页 AI动态 数据“中毒”AI 还能靠谱吗?央视起底 AI 数据污染乱象

数据“中毒”AI 还能靠谱吗?央视起底 AI 数据污染乱象

管理员 2025-08-17 16:45:16

摘要:8 月 17 日消息,近年来,的三大核心要素是算法、算力和数据。其中数据是训练 AI 模型的基础要素,也是 AI 应用的核心资源。一旦数据受到污染,就可能会导致模型决策失...

8 月 17 日消息,近年来,的三大核心要素是算法、算力和数据。其中数据是训练 AI 模型的基础要素,也是 AI 应用的核心资源。一旦数据受到污染,就可能会导致模型决策失误,甚至 AI 系统失效,存在一定的安全隐患。

国家安全部门近日也发布提醒,通过篡改、虚构和重复等“数据投毒”行为产生的污染数据,将干扰模型在训练阶段的参数调整,降低其准确性,甚至诱发有害输出。

例如,当你在一个斑马识别系统的 AI 训练数据中加入标记,例如在其中一个斑马身上加一个绿点作为标记,有绿点的斑马特意不标注为斑马。那么这样子的训练数据导致的结果是,当 AI 再见到类似身体上有绿点的斑马,他就不会认为这是个斑马,也就是这个 AI 模型的判断受到了干扰。

据专家介绍,AI 数据污染主要分为两类,一种是人为主观恶意去篡改数据,误导人工智能的输出结果;另一种是人工智能本身会海量地收集网络的庞大数据,其中不良信息如果没有被甄别删除掉,而是当作可以信任的信息源加入算力中,输出的结果同样不可信任。

众所周知,AI 大模型的训练需要海量数据。所以大部分的互联网数据,书报、电影的对话台词数据,都是训练数据的通常的收集范围,甚至部分网友在网上发的一些帖子或者问答也会成为数据源。一旦这些数据不准确、不安全,就可能导致训练出来的 AI 大模型也受到影响。

国家安全部数据显示,AI 在训练过程当中,即使是 0.001% 的虚假文本被采用,其有害输出也会相应上升 7.2%。

那么问题来了,为什么这么一丁点污染源所带来的危害会呈现几何级数的上升呢?专家表示,被污染的数据有着明显的与其他数据不同的观点和内容。这种情况下 AI 很可能将污染数据标记为有特点和高信息量,并增加在算力中使用的比例。

据专家介绍,AI 大语言模型本质上是一种统计语言模型,使用的是多层神经网络架构,具有高度的非线性特征。

在模型训练阶段,如果训练数据集中混入了污染数据模型,可能误将污染数据判定为有特点、有代表性、高信息量的内容。这种错觉就会使模型提高污染数据整体在数据集当中的重要性,最终导致少量的污染数据也能对模型权重产生影响。而当模型输出内容时,这种微小的影响会在神经网络架构的多层传播中被逐渐放大,最终导致输出结果出现明显的偏差。

另外,AI 数据污染还可能在金融、公共安全等领域引发一系列的现实风险。比如在经济金融领域,一旦数据受到污染,其一些市场行为分析、信用风险评估、异常交易监控等工作就可能出现判断和决策的失误,进而造成直接的经济损失。而在社会舆论方面,数据污染会破坏信息的真实性,让民众难以辨别信息的真伪,这就可能会引发社会舆论风险。

针对 AI 数据污染,从国家安全层面我们应该如何防范风险呢?专家表示,应该加强源头监管,防范污染生成。要制定明确的数据采集规范,使用安全可信的数据源,构建数据标签体系,采用严格的访问控制和审计等安全措施。其次,可以使用自动化工具、人工审查以及 AI 算法相结合的方式,对数据的不一致性、格式错误、语法语义冲突等问题进行分析和处理。安全机关此前针对 AI 数据污染也提示,要定期依据法规标准清洗修复受污数据,逐步构建模块化、可监测、可扩展的数据治理框架,实现持续管理与质量把控。


声明:内容来源公开的各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。

上一篇:OpenAI 奥尔特曼:GPT-5 有点搞砸了,未来公司 CEO 或是 AI
下一篇:谷歌开源 Gemma 家族最轻量模型 Gemma 3 270M:2.7 亿参数可灵活用于 手机平板端侧及 Web 环境
猜你喜欢
  • 让大模型下棋:人工智能在外交游戏中的惊人表现——Good Start Labs与独立研究者的突破性发现
  • Meta 公司再次重组 AI 团队,成立超级智能实验室
  • 4比0横扫Grok 4,o3强势夺冠,首届大模型对抗赛结果出炉
  • 塔尔图大学最新突破:让普通显微镜像"火眼金睛"一样精准识别细胞
  • 编程大模型也能瘦身成功:上海交通大学团队让AI推理快43.5%的秘密武器
  • 马斯克炮轰 OpenAI 和微软关系,纳德拉回帖称期待 Grok 5 到来
  • 机构:DeepSeek 过去一年的流量份额显著波动
  • 上海AI实验室让AI学会玩转全新软件,不再需要人类手把手教学
  • 大型多模态AI能否主动识别错误信息?吉林大学团队首创评估框架揭示惊人真相
  • 阿里云团队突破客服新纪元:让AI也能像金牌客服一样温暖贴心地解决问题
19 08, 2025
新加坡南洋理工大学重新定义3D重建:像智能手机看视频一样理解三维世界
Str Tom
站长
Str Tom 网络工作室
254
文章
0
评论
0
获赞
  • 主页
  • AI动态
  • PHP
Powered By AI知识网 © 2025 strtom网络工作室. 公安备案号:冀公网安备13011102001189号 网站备案号:冀ICP备2024070905号-2 网站地图
友情链接: 各类知识收集 PHP接单网 YzmCMS官方网站 YzmCMS交流社区 YzmCMS官方博客