具身智能正从实验室走向工厂、家庭和医院,但数据这个瓶颈制约了行业的发展。4月16日,京东推出覆盖“采、存、标、训、评、仿、测”全链路的具身智能数据基础设施,并对外展示了自研超高清采集终端JoyEgoCam、具身大模型JoyAI-RA、具身智能数据交易平台等,试图为陷入数据困局的具身智能企业上下游提供底层支撑。根据相关报告,我国具身智能产业市场规模有望在2030年达到4000亿元。高质量数据的供给是产业规模化落地的关键。
3月,京东宣布将建成全球最大具身数据采集中心;4月16日,京东发布首个具身数据全链路基础设施,打通从数据采集到模型测试的全流程闭环,将原始杂乱数据精炼为驱动模型进化的高价值“数据燃料”。
以此为基础,京东将构建全球规模最大的具身智能数据采集中心,发动最多60万人进行“大规模数据采集行动”,在两年内积累1000万小时人类真实场景视频数据,加速真实场景下的模型迭代优化,为机器人企业、具身模型研发机构、汽车厂商、医疗机构等各行业客户提供全流程数据服务。
在采集端,京东云自研的可穿戴式超高清采集终端JoyEgoCam,从清晰度、精准度、便携性、稳定性四个维度保障了源头数据质量,可在物流、零售、医疗、家庭等多种场景下“即戴即采”。
采集后的数据汇入AI数据湖平台,经PB级吞吐能力自动完成清洗、对齐、转换与预标注,再通过JoyBuilder仿真平台批量生成高逼真仿真数据,实现人类操作数据向仿真操作数据、真机操作数据的转换与泛化扩增。
“硬件发展很快,但大脑模型缺乏数据支撑,很多机器人能唱歌跳舞,却无法应用在真实的生产环节。”京东集团技术委员会主席、京东云总裁曹鹏在发布会上指出,行业训练一个具备泛化能力的具身大模型至少需要1000万小时真实场景数据,而目前市场可用数据集仅有几十万小时,“数据已经成为制约整个具身智能行业向前发展的关键痛点”。曹鹏强调,现有数据集普遍存在场景多样性不足、本体依赖性强、跨本体迁移困难等问题,难以支撑真正具有泛化能力的模型训练。
数据背后是京东在零售、物流、工业、健康等场景的资源积累——超过3600个仓库、过万线下门店、20多万药房以及5万家政人员的服务网络构成了天然的数据采集场域。
除了自建采集体系,京东还上线了具身智能数据交易平台,首批定向开放2000小时高精标注数据集,打通数据合规交易通道。曹鹏表示,该平台一方面开放京东自身采集的高精标注数据,另一方面希望聚合合作伙伴的数据资源,“光靠我们自己一家来做肯定做不好,需要更多伙伴一起把数据在数量、丰富度和质量上都做提升”。这一开放策略试图回应行业内数据孤岛、标准不一、难以流通的普遍困境。
北京商报记者 魏蔚
具身智能正从实验室走向工厂、家庭和医院,但数据这个瓶颈制约了行业的发展。4月16日,京东推出覆盖“采、存、标、训、评、仿、测”全链路的具身智能数据基础设施,并对外展示了自研超高清采集终端JoyEgoCam、具身大模型JoyAI-RA、具身智能数据交易平台等,试图为陷入数据困局的具身智能企业上下游提供底层支撑。根据相关报告,我国具身智能产业市场规模有望在2030年达到4000亿元。高质量数据的供给是产业规模化落地的关键。
3月,京东宣布将建成全球最大具身数据采集中心;4月16日,京东发布首个具身数据全链路基础设施,打通从数据采集到模型测试的全流程闭环,将原始杂乱数据精炼为驱动模型进化的高价值“数据燃料”。
以此为基础,京东将构建全球规模最大的具身智能数据采集中心,发动最多60万人进行“大规模数据采集行动”,在两年内积累1000万小时人类真实场景视频数据,加速真实场景下的模型迭代优化,为机器人企业、具身模型研发机构、汽车厂商、医疗机构等各行业客户提供全流程数据服务。
在采集端,京东云自研的可穿戴式超高清采集终端JoyEgoCam,从清晰度、精准度、便携性、稳定性四个维度保障了源头数据质量,可在物流、零售、医疗、家庭等多种场景下“即戴即采”。
采集后的数据汇入AI数据湖平台,经PB级吞吐能力自动完成清洗、对齐、转换与预标注,再通过JoyBuilder仿真平台批量生成高逼真仿真数据,实现人类操作数据向仿真操作数据、真机操作数据的转换与泛化扩增。
“硬件发展很快,但大脑模型缺乏数据支撑,很多机器人能唱歌跳舞,却无法应用在真实的生产环节。”京东集团技术委员会主席、京东云总裁曹鹏在发布会上指出,行业训练一个具备泛化能力的具身大模型至少需要1000万小时真实场景数据,而目前市场可用数据集仅有几十万小时,“数据已经成为制约整个具身智能行业向前发展的关键痛点”。曹鹏强调,现有数据集普遍存在场景多样性不足、本体依赖性强、跨本体迁移困难等问题,难以支撑真正具有泛化能力的模型训练。
数据背后是京东在零售、物流、工业、健康等场景的资源积累——超过3600个仓库、过万线下门店、20多万药房以及5万家政人员的服务网络构成了天然的数据采集场域。
除了自建采集体系,京东还上线了具身智能数据交易平台,首批定向开放2000小时高精标注数据集,打通数据合规交易通道。曹鹏表示,该平台一方面开放京东自身采集的高精标注数据,另一方面希望聚合合作伙伴的数据资源,“光靠我们自己一家来做肯定做不好,需要更多伙伴一起把数据在数量、丰富度和质量上都做提升”。这一开放策略试图回应行业内数据孤岛、标准不一、难以流通的普遍困境。
北京商报记者 魏蔚
记者3月18日从兰州大学获悉,该校动物医学与生物安全学院郑海学教授团队解析了非洲猪瘟病毒(ASFV)在猪体内感染的靶细胞,以及在靶细胞内延长感染的机制。这项研究系统阐明了ASFV感染的细胞嗜性、 再打一局游戏就睡,再刷几个视频就睡,终于放下手机,关灯睡觉了……结果翻来覆去睡不着,半夜醒来再也睡不着,为什么明明睡着了,睡眠质量却不高?3月21日是世界睡眠日,最新发布的《2024中国 人类的语言自产生以来,就不断演化发展。发音、词汇、语法的演变过程,是语言学家较为关注的领域。语言演化的根本动力是什么,演化又呈现出怎样的规律?我国科学家主导的一项心理学研究显示,人类的某 美国加州理工学院喷气推进实验室的一个机器人专家团队,与卡内基梅隆大学机器人研究所科学家合作,开发出一种蛇形机器人,用于调查土星第六大卫星土卫二的地形,以寻找生命的“蛛丝马迹”。相关研究 21世纪经济报道记者 冯恋阁 王俊 广州、北京报道2013年播出的科幻电视剧《黑镜》第二季中有这样一个故事——女主角玛莎在男友艾什被车祸夺走生命之后,长久无法走出分离的痛苦,最终选 3月22日,中国互联网络信息中心(CNNIC)在京发布第53次《中国互联网络发展状况统计报告》。报告显示,截至2023年12月,我国网民规模达10.92亿人,互联网普及率达77.5%;网络基础设施建设持续加强,新型消费 。本文链接:当具身智能陷入“数据荒”,京东布局全链路基础设施http://www.sushuapos.com/show-2-16058-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。