DeepSeek开放识图模式 AI装上了“赛博手指”

发布时间: 2026-05-14 10:25:36 来源：科技日报

观看：72

近日，DeepSeek开始灰度测试识图模式，并大范围开放给用户体验。

在具体的实测体验中，开启该模式后，用户可以直接上传图片让DeepSeek“看”世界，其能力边界远超简单的文字提取。比如，网友上传在博物馆拍摄的不明文物并开启“深度思考”后，模型不仅详细描述该文物纹理材质，还准确推断出其年代风格；面对时下流行的表情包或梗图，它也能准确理解。

DeepSeek“开眼”，与其他主流大模型有何能力差异？有哪些优势和不足？科技日报记者就此采访了有关专家。

第一问：DeepSeek识图模式与豆包等其他大模型有何区别？

“与其他大模型相比，DeepSeek识图模式的核心区别集中在技术路径、算力消耗和交互逻辑上。”赛迪顾问人工智能与大数据研究中心分析师白润轩说。

他解释道，DeepSeek识图模式以“视觉原语思考”为核心。这一核心框架主打精准空间推理和复杂场景解析，而非单纯的文字OCR（光学字符识别）或基础识别。而豆包等模型更侧重结合联网搜索提升识别时效性，多依赖传统图像编码后进行文本理解，空间推理精度稍弱。

同时，这一框架在实际运行中“算力友好”。白润轩介绍，DeepSeek处理800×800分辨率图片仅消耗约90个tokens（词元），远低于GPT等主流模型，响应速度更快。

此外，DeepSeek识图模式为独立入口，专注纯视觉理解，不额外启用联网功能，而豆包等大模型会自动联动搜索。

第二问：“视觉原语思考”的核心创新点在哪？

伴随识图模式的上线，DeepSeek还公开了其背后的多模态模型技术细节，并公布了“视觉原语思考”核心框架。

“这一框架的核心创新点在于跳出主流模型‘堆分辨率’的思路，聚焦解决传统多模态模型的‘指代鸿沟’困境。”白润轩解释。

传统多模态大模型在面对密集场景时存在一种名为“指代鸿沟”的困境，模型虽然能看见图片，但在推理过程中用“左边那个大的”等模糊的自然语言构建逻辑链时，很容易因描述不准导致注意力漂移。

而“视觉原语思考”框架将点、边界框等空间视觉元素作为“思维”基本单元，融入模型推理全过程，这就像给模型装上了一根“赛博手指”，让AI在推理时能在“脑海”中精确指出目标物，边想边指，大幅提升复杂空间布局、密集计数等场景的推理精度。

第三问：目前存在的不足及改进方向是什么？

在白润轩看来，DeepSeek识图模式目前主要存在三项不足。

一是知识库更新偏滞后。其模型训练数据截至2025年，识别2025年底后发布的新型产品易出现型号误判。

二是高难度场景表现还不稳定。面对视错觉图片、复杂物体计数等反直觉任务时，模型给出的答案稳定性不足，偶发逻辑崩溃。

三是功能边界较窄。目前仅支持纯视觉理解，暂不具备图像生成、视频理解及跨模态创作能力，且高并发时段偶有解析失败、响应延迟的情况。

“建议后续加快知识库迭代、优化反直觉场景算法；同时拓展多模态功能，进一步提升系统稳定性以适配更多用户的需求。”白润轩说。

近日，DeepSeek开始灰度测试识图模式，并大范围开放给用户体验。

在具体的实测体验中，开启该模式后，用户可以直接上传图片让DeepSeek“看”世界，其能力边界远超简单的文字提取。比如，网友上传在博物馆拍摄的不明文物并开启“深度思考”后，模型不仅详细描述该文物纹理材质，还准确推断出其年代风格；面对时下流行的表情包或梗图，它也能准确理解。

DeepSeek“开眼”，与其他主流大模型有何能力差异？有哪些优势和不足？科技日报记者就此采访了有关专家。

第一问：DeepSeek识图模式与豆包等其他大模型有何区别？

“与其他大模型相比，DeepSeek识图模式的核心区别集中在技术路径、算力消耗和交互逻辑上。”赛迪顾问人工智能与大数据研究中心分析师白润轩说。

他解释道，DeepSeek识图模式以“视觉原语思考”为核心。这一核心框架主打精准空间推理和复杂场景解析，而非单纯的文字OCR（光学字符识别）或基础识别。而豆包等模型更侧重结合联网搜索提升识别时效性，多依赖传统图像编码后进行文本理解，空间推理精度稍弱。

同时，这一框架在实际运行中“算力友好”。白润轩介绍，DeepSeek处理800×800分辨率图片仅消耗约90个tokens（词元），远低于GPT等主流模型，响应速度更快。

此外，DeepSeek识图模式为独立入口，专注纯视觉理解，不额外启用联网功能，而豆包等大模型会自动联动搜索。

第二问：“视觉原语思考”的核心创新点在哪？

伴随识图模式的上线，DeepSeek还公开了其背后的多模态模型技术细节，并公布了“视觉原语思考”核心框架。

“这一框架的核心创新点在于跳出主流模型‘堆分辨率’的思路，聚焦解决传统多模态模型的‘指代鸿沟’困境。”白润轩解释。

传统多模态大模型在面对密集场景时存在一种名为“指代鸿沟”的困境，模型虽然能看见图片，但在推理过程中用“左边那个大的”等模糊的自然语言构建逻辑链时，很容易因描述不准导致注意力漂移。

而“视觉原语思考”框架将点、边界框等空间视觉元素作为“思维”基本单元，融入模型推理全过程，这就像给模型装上了一根“赛博手指”，让AI在推理时能在“脑海”中精确指出目标物，边想边指，大幅提升复杂空间布局、密集计数等场景的推理精度。

第三问：目前存在的不足及改进方向是什么？

在白润轩看来，DeepSeek识图模式目前主要存在三项不足。

一是知识库更新偏滞后。其模型训练数据截至2025年，识别2025年底后发布的新型产品易出现型号误判。

二是高难度场景表现还不稳定。面对视错觉图片、复杂物体计数等反直觉任务时，模型给出的答案稳定性不足，偶发逻辑崩溃。

三是功能边界较窄。目前仅支持纯视觉理解，暂不具备图像生成、视频理解及跨模态创作能力，且高并发时段偶有解析失败、响应延迟的情况。

“建议后续加快知识库迭代、优化反直觉场景算法；同时拓展多模态功能，进一步提升系统稳定性以适配更多用户的需求。”白润轩说。

旅行推销员问题是一个经典的数学问题，也是一个组合优化问题。德国柏林弗雷大学和亥姆霍兹柏林能源与材料研究中心（HZB）科学家开展的一项新研究证明，量子计算机在解决旅行推销员问题上，相较于传统 “当时是怎样选中低空经济这个领域，并且来深圳发展的？”面对这个关乎事业发展的问题，“95后”台青张晏纶坦言，“这是一场面试带来的惊喜。”张晏纶来自台湾台中市，本科就读于台湾成功大学机械工程记者从国家航天局获悉，3月20日8时31分，探月工程四期鹊桥二号中继星由长征八号遥三运载火箭在中国文昌航天发射场成功发射升空。科技日报记者付毅飞摄火箭飞行24分钟后，星箭分离，将鹊 3月22日消息，xiaomi集团的卢伟冰在微博上表示，xiaomiCivi 4 Pro有可能是2024年最轻薄的电话。这款电话的厚度仅为7.45mm，重量为179.3g。尽管拥有超轻薄的机身，但Civi 4 Pro仍搭载了一块容量为4700mAh 习近平总书记在中共中央政治局第三次集体学习时强调，要加强科研学风作风建设，引导科技人员摒弃浮夸、祛除浮躁，坐住坐稳“冷板凳”。甘坐“冷板凳”是一种平心静气从事科学研究、追寻科学真理的一加Ace 3V刚发布，就被红米砍了一刀！随着昨天一加Ace 3V的发布，新一轮中端机的内卷终于拉开了序幕。而且这电话售价居然还不增反降，直接1999起步。先来回顾下它的配置，外观相比上一代有所变化，依旧是。

本文链接：DeepSeek开放识图模式 AI装上了“赛博手指”http://www.sushuapos.com/show-2-16253-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：读懂空气DNA中的隐形“生命档案”

下一篇：京东集团活跃用户连续10个季度双位数增长 AI驱动建设全球最大物理世界运营中心

DeepSeek开放识图模式 AI装上了“赛博手指”

热门资讯

推荐资讯

科技最热文章