近日,中国科学院软件研究所团队聚焦多模态有害内容识别、跨模态语义检索、大模型安全防护等问题,在生成式AI内容安全检测与模型安全研究方面取得系列进展。
针对网络模因有害内容隐蔽、且在形式、主题与时间上持续演化,研究提出了RepMD方法,依托攻击树理论构建设计理念图DCG,通过对历史有害模因进行设计步骤复现和图剪枝,提炼有害模因设计流程,并利用该图指导多模态大模型进行有害模因检测。这是从有害模因图的“设计理念”角度建模有害模因的生成逻辑,为溯源和分析恶意用户的攻击行为提供支撑。实验结果显示,RepMD检测精度达81.1%,在类型迁移与时间演化场景下均保持稳定性能。人工评估显示,该方法可提升审核效率,使单个模因的判别时间缩短15至30秒。
针对短视频中仇恨信息隐蔽性强、模态干扰问题,研究提出了从特征融合转向决策仲裁的SAGE框架。SAGE设计了相互解耦的模态专家网络,保留各模态的独立语义表达,并通过全局专家协商与实例级“仲裁庭”机制,根据证据显著性动态做出判断。在经典数据集上,SAGE优于现有主流框架,准确率提升6.64%至21.23%。
针对生成式检索语义区分能力不足、对齐偏置和闭集检索限制等问题,研究提出了SIGMA框架,构建了分层语义标识符体系。SIGMA通过多粒度层级标识符,保证图像表示的唯一性与语义一致性,并提出渐进式“语义内化”训练策略,引入语义软标签刻画细粒度图文对应关系,使模型具备对未见样本动态标识符分配的能力,实现开放集检索。在经典数据集上,SIGMA在Recall@1、5、10指标上分别提升10.65%、8.50%和7.00%。
针对大语言模型面临的提示注入攻击风险,研究提出了InstruCoT方法,构建多样化攻击数据合成机制,并引入指令级Chain-of-Thought微调策略,使模型能够显式识别、推理并拒绝恶意指令。研究从行为偏移、隐私泄露和有害输出三个维度进行实验评估。结果显示,InstruCoT在四种主流大模型上均优于基线方法,并在安全增强的同时保持了模型原有的实用性能。
相关论文被自然语言处理领域顶级会议ACL 2026接收。研究工作得到国家重点研发计划的支持。
近日,中国科学技术大学曾杰教授课题组在高熵合金催化剂的设计制备领域取得重要进展。研究人员提出了一种基于合金化效应 南京一家氛围柔和的酒吧里,老板娘很认真地告诉李业诚,“坐右边角落里那个‘歪果仁’,也许跟你聊得来,他也很喜欢小动物。” 11月13日,教育部召开学习贯彻落实习近平总书记给中国国际大学生创新大赛参赛学生代表重要回信精神座谈会。教育部党组书记、部长怀进鹏出席会议并讲话。教育部党组成员、副部长吴岩主持会议。 怀进鹏指出,习近平 中国教育报-中国教育新闻网北京11月11日讯(记者 林焕新)如何保障特殊儿童接受学前教育,事关教育公平。在今天教育部召开的新闻发布会上,江苏省教育厅副厅长顾月华介绍了学前教育法对此的有关规定 中国教育报-中国教育新闻网讯(记者 周仕敏 通讯员 张聪 李星亚)“作品中憨态可掬的熊猫形象,生动展现了中华饮食文化的独特魅力。”2024中国—东盟职业院校学生烹饪技能大赛,来自香港特别行政区 中国教育报-中国教育新闻网讯(记者 蒋夫尔)日前,新疆克拉玛依职业技术学院新能源产业学院在北京金风产业园揭牌成立。该产业学院的成立,标志着克拉玛依职业技术学院借产业学院之“船”推进职教“ 。本文链接:生成式AI内容安全检测与模型安全研究获进展http://www.sushuapos.com/show-12-2876-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
上一篇: 多星协作系统能量效率优化技术研究取得进展
下一篇: 研究发现三层镍酸盐近各向同性的上临界磁场