近日,DeepSeek开始灰度测试识图模式,并大范围开放给用户体验。
在具体的实测体验中,开启该模式后,用户可以直接上传图片让DeepSeek“看”世界,其能力边界远超简单的文字提取。比如,网友上传在博物馆拍摄的不明文物并开启“深度思考”后,模型不仅详细描述该文物纹理材质,还准确推断出其年代风格;面对时下流行的表情包或梗图,它也能准确理解。
DeepSeek“开眼”,与其他主流大模型有何能力差异?有哪些优势和不足?科技日报记者就此采访了有关专家。
第一问:DeepSeek识图模式与豆包等其他大模型有何区别?
“与其他大模型相比,DeepSeek识图模式的核心区别集中在技术路径、算力消耗和交互逻辑上。”赛迪顾问人工智能与大数据研究中心分析师白润轩说。
他解释道,DeepSeek识图模式以“视觉原语思考”为核心。这一核心框架主打精准空间推理和复杂场景解析,而非单纯的文字OCR(光学字符识别)或基础识别。而豆包等模型更侧重结合联网搜索提升识别时效性,多依赖传统图像编码后进行文本理解,空间推理精度稍弱。
同时,这一框架在实际运行中“算力友好”。白润轩介绍,DeepSeek处理800×800分辨率图片仅消耗约90个tokens(词元),远低于GPT等主流模型,响应速度更快。
此外,DeepSeek识图模式为独立入口,专注纯视觉理解,不额外启用联网功能,而豆包等大模型会自动联动搜索。
第二问:“视觉原语思考”的核心创新点在哪?
伴随识图模式的上线,DeepSeek还公开了其背后的多模态模型技术细节,并公布了“视觉原语思考”核心框架。
“这一框架的核心创新点在于跳出主流模型‘堆分辨率’的思路,聚焦解决传统多模态模型的‘指代鸿沟’困境。”白润轩解释。
传统多模态大模型在面对密集场景时存在一种名为“指代鸿沟”的困境,模型虽然能看见图片,但在推理过程中用“左边那个大的”等模糊的自然语言构建逻辑链时,很容易因描述不准导致注意力漂移。
而“视觉原语思考”框架将点、边界框等空间视觉元素作为“思维”基本单元,融入模型推理全过程,这就像给模型装上了一根“赛博手指”,让AI在推理时能在“脑海”中精确指出目标物,边想边指,大幅提升复杂空间布局、密集计数等场景的推理精度。
第三问:目前存在的不足及改进方向是什么?
在白润轩看来,DeepSeek识图模式目前主要存在三项不足。
一是知识库更新偏滞后。其模型训练数据截至2025年,识别2025年底后发布的新型产品易出现型号误判。
二是高难度场景表现还不稳定。面对视错觉图片、复杂物体计数等反直觉任务时,模型给出的答案稳定性不足,偶发逻辑崩溃。
三是功能边界较窄。目前仅支持纯视觉理解,暂不具备图像生成、视频理解及跨模态创作能力,且高并发时段偶有解析失败、响应延迟的情况。
“建议后续加快知识库迭代、优化反直觉场景算法;同时拓展多模态功能,进一步提升系统稳定性以适配更多用户的需求。”白润轩说。
近日,DeepSeek开始灰度测试识图模式,并大范围开放给用户体验。
在具体的实测体验中,开启该模式后,用户可以直接上传图片让DeepSeek“看”世界,其能力边界远超简单的文字提取。比如,网友上传在博物馆拍摄的不明文物并开启“深度思考”后,模型不仅详细描述该文物纹理材质,还准确推断出其年代风格;面对时下流行的表情包或梗图,它也能准确理解。
DeepSeek“开眼”,与其他主流大模型有何能力差异?有哪些优势和不足?科技日报记者就此采访了有关专家。
第一问:DeepSeek识图模式与豆包等其他大模型有何区别?
“与其他大模型相比,DeepSeek识图模式的核心区别集中在技术路径、算力消耗和交互逻辑上。”赛迪顾问人工智能与大数据研究中心分析师白润轩说。
他解释道,DeepSeek识图模式以“视觉原语思考”为核心。这一核心框架主打精准空间推理和复杂场景解析,而非单纯的文字OCR(光学字符识别)或基础识别。而豆包等模型更侧重结合联网搜索提升识别时效性,多依赖传统图像编码后进行文本理解,空间推理精度稍弱。
同时,这一框架在实际运行中“算力友好”。白润轩介绍,DeepSeek处理800×800分辨率图片仅消耗约90个tokens(词元),远低于GPT等主流模型,响应速度更快。
此外,DeepSeek识图模式为独立入口,专注纯视觉理解,不额外启用联网功能,而豆包等大模型会自动联动搜索。
第二问:“视觉原语思考”的核心创新点在哪?
伴随识图模式的上线,DeepSeek还公开了其背后的多模态模型技术细节,并公布了“视觉原语思考”核心框架。
“这一框架的核心创新点在于跳出主流模型‘堆分辨率’的思路,聚焦解决传统多模态模型的‘指代鸿沟’困境。”白润轩解释。
传统多模态大模型在面对密集场景时存在一种名为“指代鸿沟”的困境,模型虽然能看见图片,但在推理过程中用“左边那个大的”等模糊的自然语言构建逻辑链时,很容易因描述不准导致注意力漂移。
而“视觉原语思考”框架将点、边界框等空间视觉元素作为“思维”基本单元,融入模型推理全过程,这就像给模型装上了一根“赛博手指”,让AI在推理时能在“脑海”中精确指出目标物,边想边指,大幅提升复杂空间布局、密集计数等场景的推理精度。
第三问:目前存在的不足及改进方向是什么?
在白润轩看来,DeepSeek识图模式目前主要存在三项不足。
一是知识库更新偏滞后。其模型训练数据截至2025年,识别2025年底后发布的新型产品易出现型号误判。
二是高难度场景表现还不稳定。面对视错觉图片、复杂物体计数等反直觉任务时,模型给出的答案稳定性不足,偶发逻辑崩溃。
三是功能边界较窄。目前仅支持纯视觉理解,暂不具备图像生成、视频理解及跨模态创作能力,且高并发时段偶有解析失败、响应延迟的情况。
“建议后续加快知识库迭代、优化反直觉场景算法;同时拓展多模态功能,进一步提升系统稳定性以适配更多用户的需求。”白润轩说。
据英国《自然》杂志网站19日报道,美国华盛顿大学科学家首次使用生成式人工智能(AI)工具,帮助他们制造全新抗体。研究团队表示,AI设计抗体或能更好靶向一些很难被攻击的药物标靶,但这些抗体距离临床 造成女性更容易睡不好的原因是多方面的,包括更年期等生理周期等,而女性长期的失眠除了会导致内分泌进一步失调,还会诱发心脏病、高血压、糖尿病、免疫力低下、记忆下降、脱发、皮肤松弛等。北京 3月25日消息,去年huawei在Mate 60系列上首发了玄武机身架构,采用一体化金属机身,搭配上超耐用锦纤材质,使整机的抗挤压能力提高10倍,使用更放心。“玄武”是极其坚固的代表,huawei还在问界M9上采用了“ 在日常生活中,隧道可以帮助人们翻山越岭。在植物细胞内,当内部物质穿过细胞膜时,往往也会通过类似的“隧道”。记者从中国科学技术大学获悉,该校孙林峰团队在第六大植物激素——油菜素 今年3月23日是第64个世界气象日,主题是“气候行动最前线”。面对愈加频繁的极端天气和全球变暖等气候危机,减缓气候变化已刻不容缓。发展新能源是应对气候变化的重要举措之一,而气象服务对于新 3月21日,人工智能大模型赋能企业科技创新研讨会在广州召开。中国知网在会议期间发布了专利大数据智能应用产品“AI Pat+”。据中国知网相关负责人介绍,中国知网在人工智能大模型领域的深入研发 。本文链接:DeepSeek开放识图模式 AI装上了“赛博手指”http://www.sushuapos.com/show-2-16253-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
上一篇: 读懂空气DNA中的隐形“生命档案”