生成式AI内容安全检测与模型安全研究获进展

发布时间: 来源：中国科学院

观看：67

近日，中国科学院软件研究所团队聚焦多模态有害内容识别、跨模态语义检索、大模型安全防护等问题，在生成式AI内容安全检测与模型安全研究方面取得系列进展。

针对网络模因有害内容隐蔽、且在形式、主题与时间上持续演化，研究提出了RepMD方法，依托攻击树理论构建设计理念图DCG，通过对历史有害模因进行设计步骤复现和图剪枝，提炼有害模因设计流程，并利用该图指导多模态大模型进行有害模因检测。这是从有害模因图的“设计理念”角度建模有害模因的生成逻辑，为溯源和分析恶意用户的攻击行为提供支撑。实验结果显示，RepMD检测精度达81.1%，在类型迁移与时间演化场景下均保持稳定性能。人工评估显示，该方法可提升审核效率，使单个模因的判别时间缩短15至30秒。

针对短视频中仇恨信息隐蔽性强、模态干扰问题，研究提出了从特征融合转向决策仲裁的SAGE框架。SAGE设计了相互解耦的模态专家网络，保留各模态的独立语义表达，并通过全局专家协商与实例级“仲裁庭”机制，根据证据显著性动态做出判断。在经典数据集上，SAGE优于现有主流框架，准确率提升6.64%至21.23%。

针对生成式检索语义区分能力不足、对齐偏置和闭集检索限制等问题，研究提出了SIGMA框架，构建了分层语义标识符体系。SIGMA通过多粒度层级标识符，保证图像表示的唯一性与语义一致性，并提出渐进式“语义内化”训练策略，引入语义软标签刻画细粒度图文对应关系，使模型具备对未见样本动态标识符分配的能力，实现开放集检索。在经典数据集上，SIGMA在Recall@1、5、10指标上分别提升10.65%、8.50%和7.00%。

针对大语言模型面临的提示注入攻击风险，研究提出了InstruCoT方法，构建多样化攻击数据合成机制，并引入指令级Chain-of-Thought微调策略，使模型能够显式识别、推理并拒绝恶意指令。研究从行为偏移、隐私泄露和有害输出三个维度进行实验评估。结果显示，InstruCoT在四种主流大模型上均优于基线方法，并在安全增强的同时保持了模型原有的实用性能。

相关论文被自然语言处理领域顶级会议ACL 2026接收。研究工作得到国家重点研发计划的支持。

　　本报北京11月14日讯（记者欧媚）记者从今天举行的教育部新闻发布会上获悉，2024年世界职业技术教育发展大会将于11月20日—22日在天津举办。这是全国教育大会后我国首场教育领域的主场外交活动，是贯彻落实全国教育大会中国教育报-中国教育新闻网讯（记者苏峰）近日，山西省临汾市学前教育教研共同体第五责任区教研活动在隰县召开现场会，第五责任区教研专家，蒲县、永和县及隰县教体局相关人员和幼儿园园长、教师代表中国教育报-中国教育新闻网讯（记者程墨通讯员金美妍柯铭锟卫琼雨）冠军来了，真的来了！近日，国家前女子跳水运动员、奥运冠军刘蕙瑕分别走进湖北省大冶市茗山中学、中心小学、杨桥小学，开展了3 “在‘推普’志愿服务活动中，我见证了普通话如何跨越地域障碍，促进经济发展与文化交流，我希望有机会继续参与其中。”近日，湖南高速铁路职业技术学院学生孔俊岩在结束志愿活动时有感而发。近期，湖中国教育报-中国教育新闻网讯（记者陈欣然）11月6日，2024年全国精细化工行业产教融合共同体年度会议暨“校企对接”交流会在天津召开。本次大会由中国化工教育协会指导，天津职业大学主办，天津大学中国教育报-中国教育新闻网讯（记者任朝霞）10月30日，2024年世界职业院校技能大赛总决赛争夺赛（高职组）农林牧渔赛道园林景观设计与施工赛项在上海农林职业技术学院实训基地闭幕。来自全国58所职业。

本文链接：生成式AI内容安全检测与模型安全研究获进展http://www.sushuapos.com/show-12-2876-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：多星协作系统能量效率优化技术研究取得进展

下一篇：研究发现三层镍酸盐近各向同性的上临界磁场

生成式AI内容安全检测与模型安全研究获进展

热门资讯

推荐资讯

教育最热文章