京东开源图像模型，实测AI如何能真正“看懂”空间

发布时间: 2026-04-09 10:07:48 来源：新京报

观看：92

用AI做图、修图时，大众经常会遇到一些难题：想把图中的杯子挪个位置，结果杯子变形了；想换个视角看看画面，透视却完全不对；想调整两个物体的前后位置，也会出现遮挡混乱、比例失衡……

4月8日，记者从京东获悉，京东探索研究院近日正式开源了自研的JoyAI-Image-Edit图像模型，以解决上述难题。京东探索研究院称该模型是业内首个把“空间智能”刻进骨子里的开源模型，让AI终于能真正“看懂”空间、“编辑”空间，从原来的平面修图，升级成了三维空间重塑，而且模型的推理代码全部开放，开发者能直接拿来做应用。

官方资料显示，JoyAI-Image-Edit贴合真实世界空间规律，从空间位置关系、多视角一致性、相机感知到场景推理等维度全面建模，实现了相机坐标视角变换、物体空间位移旋转、几何结构精准控制等多项空间编辑技术突破，将空间认知能力深度融入文本与图像生成流程，搭建了完整的空间理解数据与任务体系。

全面兼容15类通用编辑能力，擅长长文本精准渲染

具体而言，该模型打破了AI“理解图像”和“生成图像”的壁垒，让AI不仅能生成逼真的图像外观，更能精准理解图像背后的空间结构，在编辑过程中稳定保持主体形象与场景结构完整，多视角空间布局高度一致。不管是移动物体、换视角，还是调整物体间的关系，都能保持场景的几何规律，遮挡、光影也都自然合理，不会再出现变形、错乱的情况。

京东探索研究院相关负责人对新京报贝壳财经记者表示，JoyAI-Image-Edit的核心跃升，在于其攻克了此前开源模型难以逾越的空间理解难题，具备三大辨识度高的空间编辑能力：视角变换——用户可通过自然语言指定相机的偏航角、俯仰角及缩放程度，模型在保持场景几何一致性的前提下生成新视角图像；空间漫游——支持连续的视角移动，生成在空间中逻辑连贯的多视角图像序列，类似于在三维场景中“走动”；物体空间关系操控——在保持场景整体结构稳定的前提下，对特定物体进行位移、缩放等空间变换，同时确保遮挡与光影关系自然合理。

在实现空间级突破的同时，JoyAI-Image-Edit全面兼容15类通用编辑能力，深度覆盖内容创作的高频需求。无论是物体的替换、删除、添加，还是整体风格迁移、细节精修等操作，模型均实现了高性能覆盖。结合顶尖的空间编辑技术，模型在长文本精准渲染、多视角一致性生成等行业高难度任务中表现卓越，真正做到了全场景、无死角的高效创作。

京东高级副总裁何晓冬在接受新京报贝壳财经记者采访时表示，通用人工智能有两个方向要走，一个方向是多模态，大模型必须具有视觉能力，未来甚至可以更进一步延伸向嗅觉、触觉；另外一个方向是走向具身智能，包括机器人、机械臂、无人车等，让通用人工智能走向物理世界。

重点应用于具身智能领域，模型还将探索多种场景

应用层面，JoyAI-Image-Edit模型可广泛应用于电商内容生产、创意设计制作、智能图像处理、3D模型重建、具身智能视觉感知等多元领域，大幅提升AI图像技术在复杂空间场景中的适配性与实用性。尤其是在具身智能领域，空间理解能力是机器人“理解世界”的核心基础，而该模型的推出，也为相关技术研发提供了关键的底层能力。

具身智能相关测试图。受访者供图

在具身智能实测领域，演示效果显示：用户仅需输入自然语言提示词（如“机器人左手举起来”），并通过画框框选目标区域，即可对指定物体的动作、姿态、旋转角度进行精细化操控。在机器人做家务的实拍场景中，模型在完整保留背景环境、物体空间关系与物理合理性的前提下，生成了机器人抬手的全新姿态。

2025年，京东在具身智能领域完成关键布局。其依托JoyAI大模型底层能力，正式推出JoyInside“附身智能”解决方案，面向智能家电、机器人等终端硬件植入高情商交互系统，将AI的认知与情感能力深度嵌入硬件终端，实现更贴合人类习惯的自然交互。

此后，京东持续探索具身智能生态建设。一方面，围绕JoyInside平台迭代技术版本，升级语音、多模态感知等核心能力；另一方面，加快产业落地，通过开放接口、合作开发等模式，与多家家电及机器人企业达成合作，推动具身智能技术在家庭陪伴、日常服务等场景的规模化应用。

京东探索研究院相关负责人称，此次JoyAI-Image-Edit的开源，是京东在AI多模态模型领域的重要布局，让AI图像编辑实现了从平面到空间的大跨越。未来该模型还将持续落地更多场景，不断探索空间智能落地价值。

用AI做图、修图时，大众经常会遇到一些难题：想把图中的杯子挪个位置，结果杯子变形了；想换个视角看看画面，透视却完全不对；想调整两个物体的前后位置，也会出现遮挡混乱、比例失衡……

4月8日，记者从京东获悉，京东探索研究院近日正式开源了自研的JoyAI-Image-Edit图像模型，以解决上述难题。京东探索研究院称该模型是业内首个把“空间智能”刻进骨子里的开源模型，让AI终于能真正“看懂”空间、“编辑”空间，从原来的平面修图，升级成了三维空间重塑，而且模型的推理代码全部开放，开发者能直接拿来做应用。

官方资料显示，JoyAI-Image-Edit贴合真实世界空间规律，从空间位置关系、多视角一致性、相机感知到场景推理等维度全面建模，实现了相机坐标视角变换、物体空间位移旋转、几何结构精准控制等多项空间编辑技术突破，将空间认知能力深度融入文本与图像生成流程，搭建了完整的空间理解数据与任务体系。

全面兼容15类通用编辑能力，擅长长文本精准渲染

具体而言，该模型打破了AI“理解图像”和“生成图像”的壁垒，让AI不仅能生成逼真的图像外观，更能精准理解图像背后的空间结构，在编辑过程中稳定保持主体形象与场景结构完整，多视角空间布局高度一致。不管是移动物体、换视角，还是调整物体间的关系，都能保持场景的几何规律，遮挡、光影也都自然合理，不会再出现变形、错乱的情况。

京东探索研究院相关负责人对新京报贝壳财经记者表示，JoyAI-Image-Edit的核心跃升，在于其攻克了此前开源模型难以逾越的空间理解难题，具备三大辨识度高的空间编辑能力：视角变换——用户可通过自然语言指定相机的偏航角、俯仰角及缩放程度，模型在保持场景几何一致性的前提下生成新视角图像；空间漫游——支持连续的视角移动，生成在空间中逻辑连贯的多视角图像序列，类似于在三维场景中“走动”；物体空间关系操控——在保持场景整体结构稳定的前提下，对特定物体进行位移、缩放等空间变换，同时确保遮挡与光影关系自然合理。

在实现空间级突破的同时，JoyAI-Image-Edit全面兼容15类通用编辑能力，深度覆盖内容创作的高频需求。无论是物体的替换、删除、添加，还是整体风格迁移、细节精修等操作，模型均实现了高性能覆盖。结合顶尖的空间编辑技术，模型在长文本精准渲染、多视角一致性生成等行业高难度任务中表现卓越，真正做到了全场景、无死角的高效创作。

京东高级副总裁何晓冬在接受新京报贝壳财经记者采访时表示，通用人工智能有两个方向要走，一个方向是多模态，大模型必须具有视觉能力，未来甚至可以更进一步延伸向嗅觉、触觉；另外一个方向是走向具身智能，包括机器人、机械臂、无人车等，让通用人工智能走向物理世界。

重点应用于具身智能领域，模型还将探索多种场景

应用层面，JoyAI-Image-Edit模型可广泛应用于电商内容生产、创意设计制作、智能图像处理、3D模型重建、具身智能视觉感知等多元领域，大幅提升AI图像技术在复杂空间场景中的适配性与实用性。尤其是在具身智能领域，空间理解能力是机器人“理解世界”的核心基础，而该模型的推出，也为相关技术研发提供了关键的底层能力。

具身智能相关测试图。受访者供图

在具身智能实测领域，演示效果显示：用户仅需输入自然语言提示词（如“机器人左手举起来”），并通过画框框选目标区域，即可对指定物体的动作、姿态、旋转角度进行精细化操控。在机器人做家务的实拍场景中，模型在完整保留背景环境、物体空间关系与物理合理性的前提下，生成了机器人抬手的全新姿态。

2025年，京东在具身智能领域完成关键布局。其依托JoyAI大模型底层能力，正式推出JoyInside“附身智能”解决方案，面向智能家电、机器人等终端硬件植入高情商交互系统，将AI的认知与情感能力深度嵌入硬件终端，实现更贴合人类习惯的自然交互。

此后，京东持续探索具身智能生态建设。一方面，围绕JoyInside平台迭代技术版本，升级语音、多模态感知等核心能力；另一方面，加快产业落地，通过开放接口、合作开发等模式，与多家家电及机器人企业达成合作，推动具身智能技术在家庭陪伴、日常服务等场景的规模化应用。

京东探索研究院相关负责人称，此次JoyAI-Image-Edit的开源，是京东在AI多模态模型领域的重要布局，让AI图像编辑实现了从平面到空间的大跨越。未来该模型还将持续落地更多场景，不断探索空间智能落地价值。

随着历史的车轮驶入2024年，大模型、AIGC等话题引发广泛热议，云计算与AI技术展现出了前所未有的深度融合趋势，就如同寒武纪的生物大爆发，激发着各行各业的创新浪潮。新质生产力时代到来，政企用云进民俗有言：桃花开，痴子忙。昨日，一大学生患“桃花癫”登上微博热搜，引发热议。该大学生认为周围女生都喜欢自己，并向全校的女生分别告白。不仅如此，由于精神的持续亢奋，该大学生还经常出现整晚不睡觉据法新社巴黎3月15日报道，15日发布的一项新的重要分析称，影响神经系统的疾病——如中风、偏头痛和痴呆症——已经超过心脏病，成为全球范围内导致人们健康损害的主要原因。 21世纪经济报道记者孔海丽、实习生邓熙涵北京报道“民以食为天，食与民同欢”，吃得健康、吃得安全是消费者长期以来的普遍共识。当代消费者已不止于填饱肚子，而是讲求“精耕细作”。消　　中新经纬3月22日电据《日本经济新闻》22日报道，夏普正在讨论缩小液晶显示器业务，夏普已将子公司显示器(SDP、位于市)停产纳入视野。显示器业务持续陷入苦战，成为夏普在2022财年(截至2023年3月)时隔5年陷入最终亏损在近日开幕的中国国际核工业展览会上，中国核学会理事会党委书记、理事长王寿君表示，中国内地现有在运核电机组55台、居全球第三；在建核电机组26台，保持全球第一。这些成绩的取得，离不开智能化技术。

本文链接：京东开源图像模型，实测AI如何能真正“看懂”空间http://www.sushuapos.com/show-2-15970-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：北京研发出全球首款全自主网球人形机器人

下一篇： DeepSeek上线专家模式

京东开源图像模型，实测AI如何能真正“看懂”空间

热门资讯

推荐资讯

科技最热文章