字节跳动推出3D生成大模型Seed3D1.0,实现单图生成高质量3D模型
快速阅读: 字节跳动Seed团队发布Seed3D1.0,从单张图像生成高质量3D模型,涵盖精细几何、真实纹理与PBR材质,提升具身智能世界模拟,突破物理交互和内容多样性局限。
字节跳动Seed团队近期发布了3D生成大模型Seed3D1.0。该模型可以从单张图像生成高质量的仿真3D模型,涵盖精细的几何结构、真实的纹理以及基于物理渲染(PBR)的材质。这项创新有望为具身智能提供强大的世界模拟支持,突破现有技术在物理交互和内容多样性上的局限。
在开发过程中,Seed团队积累了大量的高质量3D数据,建立了三阶段的数据处理流程,将大量异构原始3D数据转化为高效的训练集。Seed3D1.0采用Diffusion Transformer架构,实现了从单张图像到仿真3D模型的快速生成。此模型在几何生成上表现突出,能精确构建结构细节并保持物理完整性;在纹理生成上,通过多模态Diffusion Transformer确保了不同视角的一致性;在PBR材质生成上,利用估算方法提高了材质的准确性。
Seed3D1.0在多个评估中显示出显著的优势。在几何生成方面,1.5亿参数的Seed3D1.0超越了行业内的3亿参数模型,能够更准确地重建复杂物体的细节。在纹理材质生成方面,Seed3D1.0在保持参考图像的特性上表现优异,尤其在细小文字和人物生成上具有明显优势。人工评估显示,Seed3D1.0在几何质量、材质纹理、视觉清晰度及细节丰富度等方面获得了较高的评价。
除了生成单个物体的3D模型外,Seed3D1.0还能通过分步骤生成策略构建完整的3D场景。生成的3D模型可以轻松集成到Isaac Sim等仿真平台,只需少量适配即可用于具身智能模型的训练。这为机器人的训练提供了多样化的操作环境,促进了交互式学习,并为视觉-语言-行动模型的评估建立了全面的标准。
尽管Seed3D1.0在3D模型和场景生成方面表现出色,但Seed团队认识到,在构建世界模型时仍需提高生成精度和泛化能力。未来,团队计划引入多模态大语言模型(MLLM),以增强3D生成的质量和稳定性,并促进3D生成模型在世界模拟器中的广泛应用。
项目主页:https://seed.bytedance.com/seed3d
体验入口:https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seed3d-1-0-250928&tab=Gen3D
(以上内容均由Ai生成)