人工智能训练数据良莠不齐国安部提示警惕AI“数据投毒”行为

发布时间: 2025-08-07 16:43:32 来源：中国网

观看：152

据国家安全部微信公众号发布文章，当前，人工智能已深度融入经济社会发展的方方面面，在深刻改变人类生产生活方式的同时，也成为关乎高质量发展和高水平安全的关键领域。然而，人工智能的训练数据存在良莠不齐的问题，其中不乏虚假信息、虚构内容和偏见性观点，造成数据源污染，给人工智能安全带来新的挑战。

数据是人工智能的基础

人工智能的三大核心要素是算法、算力和数据，其中数据是训练AI模型的基础要素，也是AI应用的核心资源。

——提供AI模型的原料。海量数据为AI模型提供了充足的训练素材，使其得以学习数据的内在规律和模式，实现语义理解、智能决策和内容生成。同时，数据也驱动人工智能不断优化性能和精度，实现模型的迭代升级，以适应新需求。

——影响AI模型的性能。AI模型对数据的数量、质量及多样性要求极高。充足的数据量是充分训练大规模模型的前提；高准确性、完整性和一致性的数据能有效避免误导模型；覆盖多个领域的多样化数据，则能提升模型应对实际复杂场景的能力。

——促进AI模型的应用。数据资源的日益丰富，加速了“人工智能+”行动的落地，有力促进了人工智能与经济社会各领域的深度融合。这不仅培育和发展了新质生产力，更推动我国科技跨越式发展、产业优化升级、生产力整体跃升。

数据污染冲击安全防线

高质量的数据能够显著提升模型的准确性和可靠性，但数据一旦受到污染，则可能导致模型决策失误甚至AI系统失效，存在一定的安全隐患。

——投放有害内容。通过篡改、虚构和重复等“数据投毒”行为产生的污染数据，将干扰模型在训练阶段的参数调整，削弱模型性能、降低其准确性，甚至诱发有害输出。研究显示，当训练数据集中仅有0.01%的虚假文本时，模型输出的有害内容会增加11.2%；即使是0.001%的虚假文本，其有害输出也会相应上升7.2%。

——造成递归污染。受到数据污染的人工智能生成的虚假内容，可能成为后续模型训练的数据源，形成具有延续性的“污染遗留效应”。当前，互联网AI生成内容在数量上已远超人类生产的真实内容，大量低质量及非客观数据充斥其中，导致AI训练数据集中的错误信息逐代累积，最终扭曲模型本身的认知能力。

——引发现实风险。数据污染还可能引发一系列现实风险，尤其在金融市场、公共安全和医疗健康等领域。在金融领域，不法分子利用AI炮制虚假信息，造成数据污染，可能引发股价异常波动，构成新型市场操纵风险；在公共安全领域，数据污染容易扰动公众认知、误导社会舆论，诱发社会恐慌情绪；在医疗健康领域，数据污染则可能致使模型生成错误诊疗建议，不仅危及患者生命安全，也加剧伪科学的传播。

筑牢人工智能数据底座

——加强源头监管，防范污染生成。以《网络安全法》《数据安全法》《个人信息保护法》等法律法规为依据，建立AI数据分类分级保护制度，从根本上防范污染数据的产生，助力有效防范AI数据安全威胁。

——强化风险评估，保障数据流通。加强对人工智能数据安全风险的整体评估，确保数据在采集、存储、传输、使用、交换和备份等全生命周期环节安全。同步加快构建人工智能安全风险分类管理体系，不断提高数据安全综合保障能力。

——末端清洗修复，构建治理框架。定期依据法规标准清洗修复受污数据。依据相关法律法规及行业标准，制定数据清洗的具体规则。逐步构建模块化、可监测、可扩展的数据治理框架，实现持续管理与质量把控。

国家安全机关将在以习近平同志为核心的党中央坚强领导下，全面贯彻总体国家安全观，与有关部门一道防范针对我人工智能领域的数据污染风险，依法维护人工智能安全和数据安全，不断筑牢国家安全屏障。

据国家安全部微信公众号发布文章，当前，人工智能已深度融入经济社会发展的方方面面，在深刻改变人类生产生活方式的同时，也成为关乎高质量发展和高水平安全的关键领域。然而，人工智能的训练数据存在良莠不齐的问题，其中不乏虚假信息、虚构内容和偏见性观点，造成数据源污染，给人工智能安全带来新的挑战。

数据是人工智能的基础

人工智能的三大核心要素是算法、算力和数据，其中数据是训练AI模型的基础要素，也是AI应用的核心资源。

——提供AI模型的原料。海量数据为AI模型提供了充足的训练素材，使其得以学习数据的内在规律和模式，实现语义理解、智能决策和内容生成。同时，数据也驱动人工智能不断优化性能和精度，实现模型的迭代升级，以适应新需求。

——影响AI模型的性能。AI模型对数据的数量、质量及多样性要求极高。充足的数据量是充分训练大规模模型的前提；高准确性、完整性和一致性的数据能有效避免误导模型；覆盖多个领域的多样化数据，则能提升模型应对实际复杂场景的能力。

——促进AI模型的应用。数据资源的日益丰富，加速了“人工智能+”行动的落地，有力促进了人工智能与经济社会各领域的深度融合。这不仅培育和发展了新质生产力，更推动我国科技跨越式发展、产业优化升级、生产力整体跃升。

数据污染冲击安全防线

高质量的数据能够显著提升模型的准确性和可靠性，但数据一旦受到污染，则可能导致模型决策失误甚至AI系统失效，存在一定的安全隐患。

——投放有害内容。通过篡改、虚构和重复等“数据投毒”行为产生的污染数据，将干扰模型在训练阶段的参数调整，削弱模型性能、降低其准确性，甚至诱发有害输出。研究显示，当训练数据集中仅有0.01%的虚假文本时，模型输出的有害内容会增加11.2%；即使是0.001%的虚假文本，其有害输出也会相应上升7.2%。

——造成递归污染。受到数据污染的人工智能生成的虚假内容，可能成为后续模型训练的数据源，形成具有延续性的“污染遗留效应”。当前，互联网AI生成内容在数量上已远超人类生产的真实内容，大量低质量及非客观数据充斥其中，导致AI训练数据集中的错误信息逐代累积，最终扭曲模型本身的认知能力。

——引发现实风险。数据污染还可能引发一系列现实风险，尤其在金融市场、公共安全和医疗健康等领域。在金融领域，不法分子利用AI炮制虚假信息，造成数据污染，可能引发股价异常波动，构成新型市场操纵风险；在公共安全领域，数据污染容易扰动公众认知、误导社会舆论，诱发社会恐慌情绪；在医疗健康领域，数据污染则可能致使模型生成错误诊疗建议，不仅危及患者生命安全，也加剧伪科学的传播。

筑牢人工智能数据底座

——加强源头监管，防范污染生成。以《网络安全法》《数据安全法》《个人信息保护法》等法律法规为依据，建立AI数据分类分级保护制度，从根本上防范污染数据的产生，助力有效防范AI数据安全威胁。

——强化风险评估，保障数据流通。加强对人工智能数据安全风险的整体评估，确保数据在采集、存储、传输、使用、交换和备份等全生命周期环节安全。同步加快构建人工智能安全风险分类管理体系，不断提高数据安全综合保障能力。

——末端清洗修复，构建治理框架。定期依据法规标准清洗修复受污数据。依据相关法律法规及行业标准，制定数据清洗的具体规则。逐步构建模块化、可监测、可扩展的数据治理框架，实现持续管理与质量把控。

国家安全机关将在以习近平同志为核心的党中央坚强领导下，全面贯彻总体国家安全观，与有关部门一道防范针对我人工智能领域的数据污染风险，依法维护人工智能安全和数据安全，不断筑牢国家安全屏障。

3月18日，记者从山西省人民政府获悉，“山西煤炭工业互联网智算平台”日前在山西联通大数据中心建设完成。该平台由中国联通与山西晋云互联科技有限公司共同打造，是山西省目前唯一的垂直行业类智记者19日从兰州大学获悉，天华肉羊通过国家畜禽遗传资源委员会审定鉴定，成为我国首个适应高寒气候的肉羊品种。该品种由兰州大学草地农业科技学院李发弟教授和乐祥鹏教授团队，联合甘肃省武威市天因流量突然剧增，3月21日，陆续有用户在社交平台上表示，月之暗面旗下大模型应用Kimi智能助手的APP和小程序均无法正常使用。截至记者发稿时，相关页面和功能已经恢复正常。Kimi突然爆火，在A 那些在吃完一顿饱饭后不久就在冰箱里翻找零食的人，可能不是胃口好，而是因为寻找食物的神经元过度活跃的缘故。美国加州大学洛杉矶分校心理学家在老鼠大脑中发现了一个回路：即使它们不饿，也会让它 3月25日消息，去年huawei在Mate 60系列上首发了玄武机身架构，采用一体化金属机身，搭配上超耐用锦纤材质，使整机的抗挤压能力提高10倍，使用更放心。“玄武”是极其坚固的代表，huawei还在问界M9上采用了“ 记者从中国科学院新疆天文台获悉，近期南山26米射电望远镜在参与欧洲VLBI网组织的联测中，首次成功运用4Gbps宽带、高码率VLBI技术获得干涉条纹。相较于2Gbps观测，该技术理论上可将图像信噪比提升。

本文链接：人工智能训练数据良莠不齐国安部提示警惕AI“数据投毒”行为http://www.sushuapos.com/show-2-13383-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：聚焦“智造”：新技术赋能中国老工业基地传统装备制造业转型升级

下一篇：我国成功发射卫星互联网低轨07组卫星

人工智能训练数据良莠不齐国安部提示警惕AI“数据投毒”行为

热门资讯

推荐资讯

科技最热文章

人工智能训练数据良莠不齐 国安部提示警惕AI“数据投毒”行为

热门资讯

推荐资讯

科技最热文章

人工智能训练数据良莠不齐国安部提示警惕AI“数据投毒”行为