字节跳动推出3D生成大模型Seed3D1.0，实现单图生成高质量3D模型

发布时间：2025年10月23日来源：szf

快速阅读: 字节跳动Seed团队发布Seed3D1.0，从单张图像生成高质量3D模型，涵盖精细几何、真实纹理与PBR材质，提升具身智能世界模拟，突破物理交互和内容多样性局限。

字节跳动Seed团队近期发布了3D生成大模型Seed3D1.0。该模型可以从单张图像生成高质量的仿真3D模型，涵盖精细的几何结构、真实的纹理以及基于物理渲染（PBR）的材质。这项创新有望为具身智能提供强大的世界模拟支持，突破现有技术在物理交互和内容多样性上的局限。

在开发过程中，Seed团队积累了大量的高质量3D数据，建立了三阶段的数据处理流程，将大量异构原始3D数据转化为高效的训练集。Seed3D1.0采用Diffusion Transformer架构，实现了从单张图像到仿真3D模型的快速生成。此模型在几何生成上表现突出，能精确构建结构细节并保持物理完整性；在纹理生成上，通过多模态Diffusion Transformer确保了不同视角的一致性；在PBR材质生成上，利用估算方法提高了材质的准确性。

Seed3D1.0在多个评估中显示出显著的优势。在几何生成方面，1.5亿参数的Seed3D1.0超越了行业内的3亿参数模型，能够更准确地重建复杂物体的细节。在纹理材质生成方面，Seed3D1.0在保持参考图像的特性上表现优异，尤其在细小文字和人物生成上具有明显优势。人工评估显示，Seed3D1.0在几何质量、材质纹理、视觉清晰度及细节丰富度等方面获得了较高的评价。

除了生成单个物体的3D模型外，Seed3D1.0还能通过分步骤生成策略构建完整的3D场景。生成的3D模型可以轻松集成到Isaac Sim等仿真平台，只需少量适配即可用于具身智能模型的训练。这为机器人的训练提供了多样化的操作环境，促进了交互式学习，并为视觉-语言-行动模型的评估建立了全面的标准。

尽管Seed3D1.0在3D模型和场景生成方面表现出色，但Seed团队认识到，在构建世界模型时仍需提高生成精度和泛化能力。未来，团队计划引入多模态大语言模型（MLLM），以增强3D生成的质量和稳定性，并促进3D生成模型在世界模拟器中的广泛应用。

项目主页：https://seed.bytedance.com/seed3d

体验入口：https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seed3d-1-0-250928&tab=Gen3D

(以上内容均由Ai生成)