数据“中毒”AI 还能靠谱吗？央视起底 AI 数据污染乱象_AI知识网,一站式人工智能学习平台

摘要：8 月 17 日消息，近年来，的三大核心要素是算法、算力和数据。其中数据是训练 AI 模型的基础要素，也是 AI 应用的核心资源。一旦数据受到污染，就可能会导致模型决策失...

8 月 17 日消息，近年来，的三大核心要素是算法、算力和数据。其中数据是训练 AI 模型的基础要素，也是 AI 应用的核心资源。一旦数据受到污染，就可能会导致模型决策失误，甚至 AI 系统失效，存在一定的安全隐患。

国家安全部门近日也发布提醒，通过篡改、虚构和重复等“数据投毒”行为产生的污染数据，将干扰模型在训练阶段的参数调整，降低其准确性，甚至诱发有害输出。

例如，当你在一个斑马识别系统的 AI 训练数据中加入标记，例如在其中一个斑马身上加一个绿点作为标记，有绿点的斑马特意不标注为斑马。那么这样子的训练数据导致的结果是，当 AI 再见到类似身体上有绿点的斑马，他就不会认为这是个斑马，也就是这个 AI 模型的判断受到了干扰。

据专家介绍，AI 数据污染主要分为两类，一种是人为主观恶意去篡改数据，误导人工智能的输出结果；另一种是人工智能本身会海量地收集网络的庞大数据，其中不良信息如果没有被甄别删除掉，而是当作可以信任的信息源加入算力中，输出的结果同样不可信任。

众所周知，AI 大模型的训练需要海量数据。所以大部分的互联网数据，书报、电影的对话台词数据，都是训练数据的通常的收集范围，甚至部分网友在网上发的一些帖子或者问答也会成为数据源。一旦这些数据不准确、不安全，就可能导致训练出来的 AI 大模型也受到影响。

国家安全部数据显示，AI 在训练过程当中，即使是 0.001% 的虚假文本被采用，其有害输出也会相应上升 7.2%。

那么问题来了，为什么这么一丁点污染源所带来的危害会呈现几何级数的上升呢？专家表示，被污染的数据有着明显的与其他数据不同的观点和内容。这种情况下 AI 很可能将污染数据标记为有特点和高信息量，并增加在算力中使用的比例。

据专家介绍，AI 大语言模型本质上是一种统计语言模型，使用的是多层神经网络架构，具有高度的非线性特征。

在模型训练阶段，如果训练数据集中混入了污染数据模型，可能误将污染数据判定为有特点、有代表性、高信息量的内容。这种错觉就会使模型提高污染数据整体在数据集当中的重要性，最终导致少量的污染数据也能对模型权重产生影响。而当模型输出内容时，这种微小的影响会在神经网络架构的多层传播中被逐渐放大，最终导致输出结果出现明显的偏差。

另外，AI 数据污染还可能在金融、公共安全等领域引发一系列的现实风险。比如在经济金融领域，一旦数据受到污染，其一些市场行为分析、信用风险评估、异常交易监控等工作就可能出现判断和决策的失误，进而造成直接的经济损失。而在社会舆论方面，数据污染会破坏信息的真实性，让民众难以辨别信息的真伪，这就可能会引发社会舆论风险。

针对 AI 数据污染，从国家安全层面我们应该如何防范风险呢？专家表示，应该加强源头监管，防范污染生成。要制定明确的数据采集规范，使用安全可信的数据源，构建数据标签体系，采用严格的访问控制和审计等安全措施。其次，可以使用自动化工具、人工审查以及 AI 算法相结合的方式，对数据的不一致性、格式错误、语法语义冲突等问题进行分析和处理。安全机关此前针对 AI 数据污染也提示，要定期依据法规标准清洗修复受污数据，逐步构建模块化、可监测、可扩展的数据治理框架，实现持续管理与质量把控。

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

上一篇：OpenAI 奥尔特曼：GPT-5 有点搞砸了，未来公司 CEO 或是 AI
下一篇：谷歌开源 Gemma 家族最轻量模型 Gemma 3 270M：2.7 亿参数可灵活用于手机平板端侧及 Web 环境