传统视频理解模型在处理长视频时面临诸多挑战,如复杂上下文理解及训练和推理效率低下。为解决这些问题,研究团队运用HiCo技术,通过层次化压缩视频信息中的冗余部分,显著降低了计算需求并保留了关键信息。同时,利用与用户查询的语义关联进一步减少了视频标记数量。
VideoChat-Flash模型采用多阶段短视频到长视频的学习方案,通过监督微调及逐步引入长视频进行训练,实现了对混合长度语料的全面理解。研究团队还构建了包含300,000小时视频和2亿字注释的庞大数据集,并提出改进的“干草堆中的针”任务以提高模型对上下文的理解能力。实验结果显示,该方法在计算上减少了两个数量级,并在短视频和长视频基准测试中表现优异,超越了现有开源模型。
本文链接:中国科研团队突破性发布VideoChat-Flash:长视频处理效率狂飙100倍http://www.sushuapos.com/show-10-78919-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。