随着大模型从虚拟对话加速迈向物理世界,人工智能时代的复合型安全风险日益凸显。5月9日,北京智源人工智能研究院宣布联合北京大学、北京邮电大学、北京航空航天大学、上海交通大学、中国科学院信息工程研究所、中国科学院计算技术研究所等国内知名机构,发布FlagSafe大模型安全平台,构建覆盖风险发现、防御治理与机理解释的高标准安全平台。
当前,大模型正加速从虚拟对话迈向物理世界,随之而来的跨模态、跨场景复合风险日益严峻。面对模型内在欺骗、具身智能失控、多模态恶意对齐等层出不穷的前沿威胁,传统安全能力往往局限于单一模态、单一视域或单一防护环节,难以应对复合型风险。FlagSafe以“全面安全”为核心目标,致力于为行业提供一套“评估、防御、可解释”相结合的大模型安全资源池与评测体系。
AI安全治理的首要任务在于确立明确的系统行为边界。基于《北京 AI 安全国际共识》,FlagSafe平台确立了五项安全红线:防范未经人类批准的自主复制或改进;禁止通过不当手段获取权力与影响力;严禁协助设计大规模杀伤性武器;禁止自主发动破坏性网络攻击;防范系统对监管者的欺骗与误导。
围绕这些规范,平台目前已联合多家顶尖科研机构,初步构建了涵盖三大维度的安全能力矩阵:红队演练负责主动发现风险,扮演“自动化压力测试”角色;蓝队防御负责构建系统防线,将安全准则转化为防护能力;白盒透视负责解释与修正风险根因,聚焦模型内部机理与数据来源。
例如在红队演练中,当模型具备更强推理和规划能力后,可能出现表面遵循要求、内部隐藏真实意图,或在回答、计划和执行之间表现不一致的风险。智源研究院联合北京大学、北京邮电大学何召锋教授团队研发并接入的大模型策略性欺骗检测平台,通过静态基准与动态对抗相结合的方式,评估模型在文本、多模态和智能体场景中的一致性、诚实性与可控性。由此,FlagSafe 将风险发现从模型输出扩展到模型行动和策略行为,让风险在可控环境中提前暴露。
在应用治理方面,智源研究院联合中国科学院计算技术研究所许倩倩老师团队研发的动态可信网络空间风险内容监测系统,是FlagSafe 蓝队能力的重要落地场景。随着AIGC降低内容生产和传播门槛,违法违规、虚假误导、极端偏激等风险内容呈现规模化、隐蔽化和快速扩散趋势。该系统通过“大小模型协同、有效域感知、事件演化追踪、数据飞轮优化”的技术闭环,构建从海量内容筛查到动态风险事件研判的完整流程,将碎片化内容组织成可追踪、可解释、可处置的动态事件链。
“构建大模型时代的安全防线是一项长期的系统工程,期望以此平台为枢纽,构建“前沿研究 - 工具平台 - 产业应用”的良性闭环。我们诚挚邀请更广泛的学术界与产业界伙伴加入,协同推进大模型安全技术的创新与标准建设,共同为人工智能技术的高质量、可信赖发展保驾护航。”智源研究院相关负责人表示。
随着大模型从虚拟对话加速迈向物理世界,人工智能时代的复合型安全风险日益凸显。5月9日,北京智源人工智能研究院宣布联合北京大学、北京邮电大学、北京航空航天大学、上海交通大学、中国科学院信息工程研究所、中国科学院计算技术研究所等国内知名机构,发布FlagSafe大模型安全平台,构建覆盖风险发现、防御治理与机理解释的高标准安全平台。
当前,大模型正加速从虚拟对话迈向物理世界,随之而来的跨模态、跨场景复合风险日益严峻。面对模型内在欺骗、具身智能失控、多模态恶意对齐等层出不穷的前沿威胁,传统安全能力往往局限于单一模态、单一视域或单一防护环节,难以应对复合型风险。FlagSafe以“全面安全”为核心目标,致力于为行业提供一套“评估、防御、可解释”相结合的大模型安全资源池与评测体系。
AI安全治理的首要任务在于确立明确的系统行为边界。基于《北京 AI 安全国际共识》,FlagSafe平台确立了五项安全红线:防范未经人类批准的自主复制或改进;禁止通过不当手段获取权力与影响力;严禁协助设计大规模杀伤性武器;禁止自主发动破坏性网络攻击;防范系统对监管者的欺骗与误导。
围绕这些规范,平台目前已联合多家顶尖科研机构,初步构建了涵盖三大维度的安全能力矩阵:红队演练负责主动发现风险,扮演“自动化压力测试”角色;蓝队防御负责构建系统防线,将安全准则转化为防护能力;白盒透视负责解释与修正风险根因,聚焦模型内部机理与数据来源。
例如在红队演练中,当模型具备更强推理和规划能力后,可能出现表面遵循要求、内部隐藏真实意图,或在回答、计划和执行之间表现不一致的风险。智源研究院联合北京大学、北京邮电大学何召锋教授团队研发并接入的大模型策略性欺骗检测平台,通过静态基准与动态对抗相结合的方式,评估模型在文本、多模态和智能体场景中的一致性、诚实性与可控性。由此,FlagSafe 将风险发现从模型输出扩展到模型行动和策略行为,让风险在可控环境中提前暴露。
在应用治理方面,智源研究院联合中国科学院计算技术研究所许倩倩老师团队研发的动态可信网络空间风险内容监测系统,是FlagSafe 蓝队能力的重要落地场景。随着AIGC降低内容生产和传播门槛,违法违规、虚假误导、极端偏激等风险内容呈现规模化、隐蔽化和快速扩散趋势。该系统通过“大小模型协同、有效域感知、事件演化追踪、数据飞轮优化”的技术闭环,构建从海量内容筛查到动态风险事件研判的完整流程,将碎片化内容组织成可追踪、可解释、可处置的动态事件链。
“构建大模型时代的安全防线是一项长期的系统工程,期望以此平台为枢纽,构建“前沿研究 - 工具平台 - 产业应用”的良性闭环。我们诚挚邀请更广泛的学术界与产业界伙伴加入,协同推进大模型安全技术的创新与标准建设,共同为人工智能技术的高质量、可信赖发展保驾护航。”智源研究院相关负责人表示。
3月20日对于我国抗衰老研究是个特殊的日子,经过近3年的不懈努力,八子补肾胶囊抗衰老取得又一重大突破。挑战人类生命极限是摆在全球科学家面前的重大课题,抗衰老研究已成为世界生命科学领域关注 21世纪经济报道见习记者 顾婷婷 杭州报道如何让沉睡在实验室里的专利真正应用到车间,真正面向市场,转化为真正的新质生产力?3月19日,由国家知识产权局组织的高校和科研机构存量专利盘活 荷兰阿姆斯特丹大学医学院科学家开展的一项新研究证明,利用最新CRISPR-Cas基因编辑技术,能消除实验室中受感染细胞内所有艾滋病病毒(HIV)的痕迹,为治愈该病带来新希望。相关研究论文将提交于4月27 近日有消息称,huaweiMate60已经停产。作为huawei于2023年8月末发布的最新旗舰机型,huaweiMate60的停产意味着huawei新款旗舰或即将上市,接替Mate60。2023年8月29日,huaweiMate60 Pro、huaweiMate60等 3月23日消息,京东与OPPO战略合作协议签约仪式举行,双方签订未来三年OPPO在京东全渠道实现销售额同比增长100%的目标。在签约仪式上,OPPO高级副CEO、首席产品官刘作虎表示,2024年线上突破是OPPO中国区 随着无人驾驶技术的快速发展,无人车在城市配送、环卫清扫、安防巡逻等应用场景中已得到较好示范应用。3月22日,南京溧水经济开发区管委会与南京易咖智车科技有限公司联合举办“金陵智地 易启未 。本文链接:给大模型“定规矩”,FlagSafe大模型安全平台发布http://www.sushuapos.com/show-2-16232-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
上一篇: 人工智能终端迎来“体检表”
下一篇: 科研成果要走出书斋闯市场