大语言模型会在蒸馏中“夹带”自己的偏好

发布时间: 2026-04-16 12:19:33 来源：科技日报

观看：85

科技日报北京4月15日电（记者张梦然）《自然》15日发表的一项研究显示，大语言模型（LLM）可能会将某些自己的偏好“夹带私货”传授给其他算法，即使在训练数据中清除原始特征后，这些本不需要的特征，仍可能持续存在。在一个案例中，一个模型似乎通过数据中的隐含信号，将自己对猫头鹰的偏好传递给了其他模型。该研究结果表明，在开发LLM时，需要进行更彻底的安全检查。

LLM可通过一种名为“蒸馏”的过程，生成用于训练其他模型的数据集，该过程旨在让“学生”模型学会模仿“老师”模型的输出。虽然此过程可用于生成成本更低的LLM，但目前尚不清楚老师模型的哪些特性会被传递给学生模型。

美国Anthropic公司研究团队使用GPT-4.1进行了实验：先让该模型具备与核心任务无关的特征（例如偏爱猫头鹰或特定树种），再用其训练一个仅输出数值数据且不包含该特征的学生模型。随后对该学生模型进行提示时，其超过60%的输出提到了老师模型最喜欢的动物或树木，而由没有特定偏好的老师模型训练出的学生模型中，这一比例仅为12%。当学生模型基于包含代码而非数字的老师模型输出进行训练时，同样观察到了这一现象。此外，若学生模型基于与老师模型语义不对齐的数字序列进行训练，则会继承这种不对齐性，从而产生有害输出，即便这些数字已经过滤以剔除任何具有负面联想的内容。

团队发现，这种潜意识学习（即通过语义无关的数据传递行为特征），主要发生在老师和学生均为同一模型（例如GPT-4.1老师与GPT-4.1学生）的情况下。截至目前，数据传递的具体机制尚不明确，需要进一步研究。

团队还指出，该研究的局限性在于所选特征（例如最喜欢的动物和树木）过于简单，需要进一步研究以确定更复杂的特征如何被潜意识地学习。他们得出结论，为了确保先进AI系统的安全性，需要进行更严格的安全测试，例如监控LLM的内部机制。

面对以大模型通用人工智能为代表的新技术，以及由此带来的工业界、产业界的新发展新模式，MBA人才教育何去何从？ 12月1日，在清岁月不居，时节如流。转眼间，2023年已步入尾声。这一年给我们留下了太多值得铭记的精彩时刻：我国科学家成功制备并验证5 过去的数个月，对我国道路交通智能检测领域知名专家赵祥模教授来讲，一如既往地保持着忙碌而有序的“快节奏”，他从容地在多 12月18日晚，甘肃临夏州积石山县发生6.2级地震，震源深度10公里，已致多人遇难，部分水、电、交通、通讯等基础设施受损。应急管如果说起这两年印度蹿升最猛的高校，那无疑应包括萨维塔医学和技术科学研究所（SIMATS）。其所属牙科学院以一己之力，累计发表关于发布“2023年度华夏建设科学技术奖”授奖项目的公示华夏奖字〔2023〕第4号各有关单位： 2023年度华夏建设科学技术。

本文链接：大语言模型会在蒸馏中“夹带”自己的偏好http://www.sushuapos.com/show-11-33619-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：超声波转化的光点能直达身体任何部位

下一篇：免疫系统可改造为持久“生物制药厂”

大语言模型会在蒸馏中“夹带”自己的偏好

热门资讯

推荐资讯

科学最热文章