给大模型“定规矩”，FlagSafe大模型安全平台发布

发布时间: 2026-05-13 12:07:23 来源：北京日报客户端

观看：19

随着大模型从虚拟对话加速迈向物理世界，人工智能时代的复合型安全风险日益凸显。5月9日，北京智源人工智能研究院宣布联合北京大学、北京邮电大学、北京航空航天大学、上海交通大学、中国科学院信息工程研究所、中国科学院计算技术研究所等国内知名机构，发布FlagSafe大模型安全平台，构建覆盖风险发现、防御治理与机理解释的高标准安全平台。

当前，大模型正加速从虚拟对话迈向物理世界，随之而来的跨模态、跨场景复合风险日益严峻。面对模型内在欺骗、具身智能失控、多模态恶意对齐等层出不穷的前沿威胁，传统安全能力往往局限于单一模态、单一视域或单一防护环节，难以应对复合型风险。FlagSafe以“全面安全”为核心目标，致力于为行业提供一套“评估、防御、可解释”相结合的大模型安全资源池与评测体系。

AI安全治理的首要任务在于确立明确的系统行为边界。基于《北京 AI 安全国际共识》，FlagSafe平台确立了五项安全红线：防范未经人类批准的自主复制或改进；禁止通过不当手段获取权力与影响力；严禁协助设计大规模杀伤性武器；禁止自主发动破坏性网络攻击；防范系统对监管者的欺骗与误导。

围绕这些规范，平台目前已联合多家顶尖科研机构，初步构建了涵盖三大维度的安全能力矩阵：红队演练负责主动发现风险，扮演“自动化压力测试”角色；蓝队防御负责构建系统防线，将安全准则转化为防护能力；白盒透视负责解释与修正风险根因，聚焦模型内部机理与数据来源。

例如在红队演练中，当模型具备更强推理和规划能力后，可能出现表面遵循要求、内部隐藏真实意图，或在回答、计划和执行之间表现不一致的风险。智源研究院联合北京大学、北京邮电大学何召锋教授团队研发并接入的大模型策略性欺骗检测平台，通过静态基准与动态对抗相结合的方式，评估模型在文本、多模态和智能体场景中的一致性、诚实性与可控性。由此，FlagSafe 将风险发现从模型输出扩展到模型行动和策略行为，让风险在可控环境中提前暴露。

在应用治理方面，智源研究院联合中国科学院计算技术研究所许倩倩老师团队研发的动态可信网络空间风险内容监测系统，是FlagSafe 蓝队能力的重要落地场景。随着AIGC降低内容生产和传播门槛，违法违规、虚假误导、极端偏激等风险内容呈现规模化、隐蔽化和快速扩散趋势。该系统通过“大小模型协同、有效域感知、事件演化追踪、数据飞轮优化”的技术闭环，构建从海量内容筛查到动态风险事件研判的完整流程，将碎片化内容组织成可追踪、可解释、可处置的动态事件链。

“构建大模型时代的安全防线是一项长期的系统工程，期望以此平台为枢纽，构建“前沿研究 - 工具平台 - 产业应用”的良性闭环。我们诚挚邀请更广泛的学术界与产业界伙伴加入，协同推进大模型安全技术的创新与标准建设，共同为人工智能技术的高质量、可信赖发展保驾护航。”智源研究院相关负责人表示。

随着大模型从虚拟对话加速迈向物理世界，人工智能时代的复合型安全风险日益凸显。5月9日，北京智源人工智能研究院宣布联合北京大学、北京邮电大学、北京航空航天大学、上海交通大学、中国科学院信息工程研究所、中国科学院计算技术研究所等国内知名机构，发布FlagSafe大模型安全平台，构建覆盖风险发现、防御治理与机理解释的高标准安全平台。

当前，大模型正加速从虚拟对话迈向物理世界，随之而来的跨模态、跨场景复合风险日益严峻。面对模型内在欺骗、具身智能失控、多模态恶意对齐等层出不穷的前沿威胁，传统安全能力往往局限于单一模态、单一视域或单一防护环节，难以应对复合型风险。FlagSafe以“全面安全”为核心目标，致力于为行业提供一套“评估、防御、可解释”相结合的大模型安全资源池与评测体系。

AI安全治理的首要任务在于确立明确的系统行为边界。基于《北京 AI 安全国际共识》，FlagSafe平台确立了五项安全红线：防范未经人类批准的自主复制或改进；禁止通过不当手段获取权力与影响力；严禁协助设计大规模杀伤性武器；禁止自主发动破坏性网络攻击；防范系统对监管者的欺骗与误导。

围绕这些规范，平台目前已联合多家顶尖科研机构，初步构建了涵盖三大维度的安全能力矩阵：红队演练负责主动发现风险，扮演“自动化压力测试”角色；蓝队防御负责构建系统防线，将安全准则转化为防护能力；白盒透视负责解释与修正风险根因，聚焦模型内部机理与数据来源。

例如在红队演练中，当模型具备更强推理和规划能力后，可能出现表面遵循要求、内部隐藏真实意图，或在回答、计划和执行之间表现不一致的风险。智源研究院联合北京大学、北京邮电大学何召锋教授团队研发并接入的大模型策略性欺骗检测平台，通过静态基准与动态对抗相结合的方式，评估模型在文本、多模态和智能体场景中的一致性、诚实性与可控性。由此，FlagSafe 将风险发现从模型输出扩展到模型行动和策略行为，让风险在可控环境中提前暴露。

在应用治理方面，智源研究院联合中国科学院计算技术研究所许倩倩老师团队研发的动态可信网络空间风险内容监测系统，是FlagSafe 蓝队能力的重要落地场景。随着AIGC降低内容生产和传播门槛，违法违规、虚假误导、极端偏激等风险内容呈现规模化、隐蔽化和快速扩散趋势。该系统通过“大小模型协同、有效域感知、事件演化追踪、数据飞轮优化”的技术闭环，构建从海量内容筛查到动态风险事件研判的完整流程，将碎片化内容组织成可追踪、可解释、可处置的动态事件链。

“构建大模型时代的安全防线是一项长期的系统工程，期望以此平台为枢纽，构建“前沿研究 - 工具平台 - 产业应用”的良性闭环。我们诚挚邀请更广泛的学术界与产业界伙伴加入，协同推进大模型安全技术的创新与标准建设，共同为人工智能技术的高质量、可信赖发展保驾护航。”智源研究院相关负责人表示。

瑞士洛桑联邦理工学院工程学院研究团队制造了一种用于内存的新型纳米流体设备，这使他们第一次能连接两个“人工突触”。该设备为受大脑启发的液体硬件设计铺平了道路。这项研究发表在最新一期 21世纪经济报道记者冯恋阁王俊广州、北京报道2013年播出的科幻电视剧《黑镜》第二季中有这样一个故事——女主角玛莎在男友艾什被车祸夺走生命之后，长久无法走出分离的痛苦，最终选 3月22日消息，xiaomi集团的许斐在微博上表示，xiaomiCivi 4 Pro的预售业绩远超预期，尤其是春野绿配色，许多门店都出现了缺货情况。据了解，xiaomiCivi 4 Pro的春野绿后盖左侧采用了全新的绮彩鎏光工艺，通据英国《自然》周刊网站3月19日报道，研究人员首次利用生成式人工智能（AI）制造出全新抗体。报道称，本周生物学预印本资料库中的一份预印本报告的原理验证研究，提高了将“AI指导的蛋白质设计引入治记者从中国科学院新疆天文台获悉，近期南山26米射电望远镜在参与欧洲VLBI网组织的联测中，首次成功运用4Gbps宽带、高码率VLBI技术获得干涉条纹。相较于2Gbps观测，该技术理论上可将图像信噪比提升记者3月22日获悉，中山大学、深圳华大生命科学研究院与复旦大学的研究团队合作，揭示了多种蚊虫在不同生境下病毒的多样性、传播分布的影响因素及地理谱系特征，在多维尺度上为研究蚊虫病毒组提供。

本文链接：给大模型“定规矩”，FlagSafe大模型安全平台发布http://www.sushuapos.com/show-2-16232-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：人工智能终端迎来“体检表”

下一篇：科研成果要走出书斋闯市场

给大模型“定规矩”，FlagSafe大模型安全平台发布

热门资讯

推荐资讯

科技最热文章