中国自研“智象视觉大模型” 将生命力注入你的故事

发布时间: 2024-03-18 14:51:52 来源：

观看：387

“在AIGC的路上，我们可以说是一路狂奔。”近日，智象未来（HiDream.ai）的创始人梅涛（CEO）表示，作为国内一家专注于构建视觉多模态基础模型及应用的生成式人工智能初创公司，其自主研发的“智象视觉大模型”是目前全球同时支持图像和视频生成的最大模型。模型参数已超过130 亿，可实现文本、图片、视频等多模态内容的生成。

2024年第一季度，智象未来计划推出重大迭代的图像基础模型。这一技术也将持续赋能视频生成领域，原有视频基础模型预计在3月底实现大幅升级。新一版模型将在文本与视频的一致性、生成时长和视频连贯性等方面有显著进步，用户可享受到更加丝滑、顺畅的视频生成体验。

深耕于视频生成领域，智象未来将聚焦四大关键要素——视觉故事性、内容确定性、超高清画质（4K/8K）以及全局和局部可控性，并已在实际产品中实现4K高清画面、全局和局部的可控、剧本多镜头视频生成等功能。

其中，Pixeling 千象是智象未来打造的自主可控生成式AIGC创作平台和社区，其小程序“千象万相”集图片生成、视频生成、图片编辑（智能重绘、智能拓图、图片增强）等功能于一体。即使是零基础的用户，也能运用AIGC一站式满足需求，让天马行空的想象触手可及，让创作更加高效而强大。

E象则是专为电商卖家打造的AI制图工具。无需策划方案、道具采购、美工置景、布景拍摄、后期加工等流程及费用，商家只需上传一张商品图或真人试穿图，即可一键生成大量真实场景商品图，还原服饰的真实上身效果，助力卖家降本增效，打造爆款。

此外，智象未来团队在文生视频领域独辟蹊径，开辟更精细、稳定、品质卓越的创新之路——不直接从文本向视频转换，而是从文本先向图片转换，生成关键帧，再拓展为多镜头的完整视频。

“逐帧生成的方法不仅能够提高视频生成的稳定性、细节处理和美感，还为视频生成的时长拓展提供了可能性。”梅涛介绍。

收到一条文本或指令后，大语言模型会基于对文本的理解，自动生成分镜头脚本，再通过“文生图”功能，创造性地生成分镜头脚本所描绘的画面，从细腻纹理到光影流转，每一幅画面都精雕细琢。然后，将多个画面逐帧拼接，转换为多段单一镜头的视频。最终，将这些视频剪辑形成15秒甚至更长时间的多镜头视频。

目前，智象未来已经完成图像Diffusion Transformer 架构 130 亿参数规模的训练，拥有如此大规模的训练数据集，使模型具备强大的语言理解和视觉推理能力。

“在AIGC的路上，我们可以说是一路狂奔。”近日，智象未来（HiDream.ai）的创始人梅涛（CEO）表示，作为国内一家专注于构建视觉多模态基础模型及应用的生成式人工智能初创公司，其自主研发的“智象视觉大模型”是目前全球同时支持图像和视频生成的最大模型。模型参数已超过130 亿，可实现文本、图片、视频等多模态内容的生成。

2024年第一季度，智象未来计划推出重大迭代的图像基础模型。这一技术也将持续赋能视频生成领域，原有视频基础模型预计在3月底实现大幅升级。新一版模型将在文本与视频的一致性、生成时长和视频连贯性等方面有显著进步，用户可享受到更加丝滑、顺畅的视频生成体验。

深耕于视频生成领域，智象未来将聚焦四大关键要素——视觉故事性、内容确定性、超高清画质（4K/8K）以及全局和局部可控性，并已在实际产品中实现4K高清画面、全局和局部的可控、剧本多镜头视频生成等功能。

其中，Pixeling 千象是智象未来打造的自主可控生成式AIGC创作平台和社区，其小程序“千象万相”集图片生成、视频生成、图片编辑（智能重绘、智能拓图、图片增强）等功能于一体。即使是零基础的用户，也能运用AIGC一站式满足需求，让天马行空的想象触手可及，让创作更加高效而强大。

E象则是专为电商卖家打造的AI制图工具。无需策划方案、道具采购、美工置景、布景拍摄、后期加工等流程及费用，商家只需上传一张商品图或真人试穿图，即可一键生成大量真实场景商品图，还原服饰的真实上身效果，助力卖家降本增效，打造爆款。

此外，智象未来团队在文生视频领域独辟蹊径，开辟更精细、稳定、品质卓越的创新之路——不直接从文本向视频转换，而是从文本先向图片转换，生成关键帧，再拓展为多镜头的完整视频。

“逐帧生成的方法不仅能够提高视频生成的稳定性、细节处理和美感，还为视频生成的时长拓展提供了可能性。”梅涛介绍。

收到一条文本或指令后，大语言模型会基于对文本的理解，自动生成分镜头脚本，再通过“文生图”功能，创造性地生成分镜头脚本所描绘的画面，从细腻纹理到光影流转，每一幅画面都精雕细琢。然后，将多个画面逐帧拼接，转换为多段单一镜头的视频。最终，将这些视频剪辑形成15秒甚至更长时间的多镜头视频。

目前，智象未来已经完成图像Diffusion Transformer 架构 130 亿参数规模的训练，拥有如此大规模的训练数据集，使模型具备强大的语言理解和视觉推理能力。

据阿根廷布宜诺斯艾利斯经济新闻网报道，一项国际研究发现，阿尔茨海默病的早期症状可能表现在视力上。研究显示，即便眼科检查结果正常，但阅读、估计距离和触及物体的困难都是可能揭示阿尔茨海默病玻璃，是我们日常生活中常见且应用非常广泛的一种材料，如外墙、窗户、杯子、灯饰……但玻璃的应用远不止于此。2024年3月22日14时，由中国下一代教育基金会与中国平安共同主办、科技眼眸深邃似海、璨如星河，中国医学科学院生物医学工程研究所眼科诊疗技术研发团队（以下简称“团队”）正是眼眸“侦探”。该团队不久前被授予“国家卓越工程师团队”称号。别看人眼只有8克左右，却联合国机构3月20日发布的《全球电子垃圾监测》报告显示，2022年全球范围内共产生6200万吨电子垃圾，其中仅有不到四分之一被回收利用。报告显示，2022年全球电子垃圾的产生量相比2010年增长了82%。美国和法国的科学家联合团队借助新的3D打印技术，开发出一种多层人造皮肤，只需18天即可长成。这种仿真皮肤可用于提升护肤品测试效率，并催生更好的皮肤治疗方法。相关研究发表于新一期《先进功能　　盲视技术已在猴子身上见效！马斯克脑机接口公司新目标：让盲人重见光明　　澎湃新闻记者吴遇利　　Neuralink新技术或将造福数千万名失明人士。　　当地时间3月21日，特斯拉CEO埃隆・马斯克在社交平台X(原推特)发文称，。

本文链接：中国自研“智象视觉大模型” 将生命力注入你的故事http://www.sushuapos.com/show-2-3922-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：工业互联网“身份证”体系由建到用

下一篇：吴琦：“AI会导致电力短缺”言论是杞人忧天吗？

中国自研“智象视觉大模型” 将生命力注入你的故事

热门资讯

推荐资讯

科技最热文章