快讯科技财经汽车社会旅游娱乐时尚健康生活科学教育

热搜：广东将系统规模化创新羊小咩便荔于古德伍德吉林省发展广州端午接《北回归线 2026央行一

首页 > 科技

解锁AI的3D叙事李飞飞、谷歌先行一步

发布时间: 2024-12-08 08:07:36 来源：

观看：217

21世纪经济报道记者孔海丽北京报道

AIGC的3D赛道突然热闹了起来。

12月5日，谷歌DeepMind放出了新一代世界模型Genie 2，可以“一张图生成1分钟游戏3D世界”，网友惊呼“黑客帝国来了”。

就在两天之前，“AI教母”李飞飞的World Labs刚官宣了“空间智能”模型，支持“一张图生成一个3D世界”。

这是继Sora之后，对世界模型的又一次讨论热潮。从文本到图像，再到视频和可交互的3D世界，AIGC总体上有了重大飞跃。

对于产业端来说，创造性设计类工作和交互式体验工作流，都迎来了强大助力。世界模型可以为Agent训练、具身智能训练、复杂的动画制作、游戏制作、物理学建模等领域，提供无限多样、可操控的3D环境。

也有产业人士表示，世界模型的进展，意味着终极AGI（通用人工智能）又近了一步。

谷歌拓展通向AGI的广度

Genie 2是谷歌第二代世界模型，给定一张图像，就能生成一个通过键盘和鼠标输入的、可操作的3D环境。

图像中的角色，可以被键盘识别并响应智能操作。

同一个起始帧，可以生成不同的运动轨迹。

Genie 2前后记忆具有一致性，周围场景即便不可见时，也不会发生扭曲。

可贵的是，Genie 2可以根据画面实时生成新场景，最长可达一分钟。

这样的界面，和游戏有共通之处。

“游戏在人工智能研究领域发挥着关键作用。它们引人入胜的画质、独特的挑战组合和可衡量的进步，成为安全测试和推进AI功能的理想环境。”谷歌方面坦陈：“事实上，游戏对谷歌DeepMind一直很重要，也是谷歌训练Agent的重要途径。”

但是对具身智能的训练，行业是遇到了瓶颈的。

足够丰富和多样化的训练环境，才能促进具身智能的实际进步。21世纪经济报道记者从人形机器人产业人士处获知，当前，泛化能力是人形机器人的一大痛点。

Genie 2有望帮助具身智能解决训练瓶颈。

交互功能上，Genie 2可以对交互关系进行建模，例如爆破气球、打开门和射击炸药桶等。

这使得制作多样化交互场景简单了许多。利用Genie 2快速构建的各种交互式体验原型，研究人员能够快速用新环境来训练和测试具身智能AI。

例如，使用Imagen 3生成的不同图像提示Genie 2对纸飞机、龙、鹰或降落伞飞行之间的区别进行建模，并测试Genie控制不同对象时的能力。

也就是说，AI智能体可以在世界模型里，获得近乎无限的训练场景和交互体系。

虽然这项研究还处于早期阶段，但谷歌研究人员认为，Genie 2是解决安全训练具身智能结构性问题的有效路径，解锁具身智能的下一波能力，也能够实现迈向AGI所需的广度和通用性。

李飞飞兑现空间智能设想

World Labs是著名AI学者、华裔科学家李飞飞的第一个创业项目，成立于2024年1月，公司创立半年时，估值已超10亿美元。

这是一家空间智能公司，致力于构建能够感知、生成并与3D世界互动的大型世界模型，计划为用户生成可操控其中变量的虚拟3D空间，并允许人们“创建自己的3D世界”。World Labs指出，其软件将对包括艺术家、设计师、开发人员和工程师在内的各类从业者有所帮助。

12月3日，World Labs交出了1.0版本作业。

由单张图像可以生成3D世界，用户可以实质意义上“走进”任何图像，并在3D中探索。

该工具还配备了可操控的滑块，来调节模拟景深与模拟推拉变焦，支持调整摄像机的位置和视野、更改对象颜色，创建聚光灯特效、自动运行的动态效果等交互方式，丰富了视觉体验和更强的操控感。

与Genie 2一样，World Labs的空间智能模型也可以保证3D世界的一致性，场景更加持久，一旦生成便会一直存在；用户可以实时控制、实时移动场景，能够仔细观察场景中的细节。

世界模型遵循3D几何的基本物理规则，兼具真实感和深度感，有效提升了内容的操控性和一致性，改变了电影、游戏、模拟器以及物理世界其他数字呈现形式的制作方式。

英伟达高级研究科学家Jim Fan评价说：“GenAI正在创造越来越高维度的人类体验快照。Stable Diffusion是2D快照；Sora是2D+时间维度的快照；而World Labs是3D、完全沉浸式的快照。”

目前，Worldlabs对公众开放了候补名单申请，部分创作者已经可以将这个AI工具整合到现有的工作流程中。

在影视制作领域，AI的3D叙事能力将大大提高内容创作的效率和质量，降低制作成本。创作者可以更快速地生成虚拟场景和角色，通过AI生成的3D世界来构建更加丰富多样的故事背景，为观众带来全新的视觉体验。

例如，在拍摄前利用Worldlabs技术生成虚拟的拍摄场景，帮助导演和摄影师更好地规划镜头和场景布置，提高拍摄效率和准确性。

对于游戏行业，3D生成将为游戏开发带来更多可能性。开发者可以利用AI生成更加逼真、细腻的游戏场景和角色，提升游戏的沉浸感。

在教育领域，大模型生成的3D内容可以创建更加生动、直观的教学场景，增加科学、历史等学科的体验感。

李飞飞认为，“空间智能”是AI拼图的关键一环。她今年4月份在TED演讲中曾称：“视觉变成了洞察力；洞察力变成了理解力；理解力推动了行动。所有这些都产生了智能。”

Genie 2和Worldlabs所代表的空间智能领域，是AI技术发展的一个重要新方向。它突破了传统AI在二维平面上的局限，将AI的感知和理解能力拓展到了三维空间，更直观，也更趋近于交互本质。

记者3月20日从中国科学院地质与地球物理研究所获悉，该所科研人员在东北黑土区开展了大范围的野外调查和样品采集工作，通过分析采集的黑土样品发现，黑土物质最初都是由风力搬运而来。相关研究成因流量突然剧增，3月21日，陆续有用户在社交平台上表示，月之暗面旗下大模型应用Kimi智能助手的APP和小程序均无法正常使用。截至记者发稿时，相关页面和功能已经恢复正常。Kimi突然爆火，在A 记者3月21日从安徽农业大学获悉，该校生命科学学院韩毅教授课题组与国内外专家合作，发现了植物避盐性的关键基因。该研究对于提高植物耐盐性，帮助盐碱地下的农作物稳产具有重要理论指导意义。相 3月21日，记者从陆军军医大学新桥医院获悉，该院普通外科开通甲乳结节AI早筛门诊，利用AI（人工智能）辅助诊断技术，成功为一名甲状腺乳头状癌患者成功实施手术提供了精准决策辅助。该院为重庆首家开通据英国《自然》周刊网站3月19日报道，研究人员首次利用生成式人工智能（AI）制造出全新抗体。报道称，本周生物学预印本资料库中的一份预印本报告的原理验证研究，提高了将“AI指导的蛋白质设计引入治作为功能机时代的霸主，诺基亚手机曾经创造了巨大的辉煌，但也因错失智能手机发展机遇而“掉队”。近期，外媒Visual Capitalist统计了有史以来最畅销的15款手机型号，其中诺基亚和苹果包揽前十。今。

本文链接：解锁AI的3D叙事李飞飞、谷歌先行一步http://www.sushuapos.com/show-2-9614-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：南财数据周报（25期）：央地协同推进数据流通治理，跨区域合作加速

下一篇：今年，短剧要逆袭电影票房了？丨短剧帝国的微言大观⑮

解锁AI的3D叙事李飞飞、谷歌先行一步

谷歌拓展通向AGI的广度

李飞飞兑现空间智能设想

热门资讯

推荐资讯

科技最热文章

解锁AI的3D叙事 李飞飞、谷歌先行一步

谷歌拓展通向AGI的广度

李飞飞兑现空间智能设想

热门资讯

推荐资讯

科技最热文章

解锁AI的3D叙事李飞飞、谷歌先行一步