字节跳动发布多款AI模型及企业托管方案

发布时间：2025年7月30日来源：szf

快速阅读: 据《IT之家 – 电脑频道》称，7月30日，厦门，字节跳动火山引擎在FORCE Link AI创新巡展上发布了豆包·图像编辑模型3.0、豆包·同声传译模型2.0及豆包大模型1.6系列的全新升级，宣布开源核心能力，并推出多项模型服务和工具产品。这些模型在图像编辑、同声传译和多模态融合检索等方面取得显著进展，为企业和个人用户提供高效、低成本的解决方案。

7月30日，厦门，字节跳动火山引擎在FORCE Link AI创新巡展上发布了豆包·图像编辑模型3.0、豆包·同声传译模型2.0及豆包大模型1.6系列的全新升级，并宣布开源核心能力，同时推出企业自有模型托管方案、Responses API等多项模型服务和工具产品。

豆包·图像编辑模型SeedEdit 3.0基于强大的文生图模型Seedream 3.0，具备更强的指令遵循能力、图像保持能力和更高的图像生成质量；结合多样化的数据融合方法与特定奖励模型，支持1K以上高清图像的生成与处理。用户可通过自然语言指令完成消除多余内容、改变光影效果、替换文字等操作。该模型还具备对风格、结构与语义的精准控制力，能够像人类大脑一样理解指令、深度思考，解锁更多创新的修图场景，如图像风格转换、变换材质、变化人物姿势、根据提示词进行推理等P图玩法。

官方介绍，豆包·图像编辑模型3.0可广泛应用于影像创作、广告营销、游戏宣传等领域。企业用户可在火山方舟平台调用API，个人用户可使用即梦或豆包App进行体验。例如，该模型可以精准锁定头发区域换成短发，只修改毛衣区域的颜色和纹理并添加项链，调整人物姿态让其自然落座，背景、人物面部特征及其他细节毫发无损。此外，它还能理解复杂的指令，如将“MORE”变成“MAGAZINE”，将“探索未知”变成“凝视内心”，将黑夜变为阳光明媚的白昼，甚至能理解“发酵”过程，生成体积膨大、充满气泡的发酵面团图，并基于面团状态进行推理，生成金黄酥脆、香气四溢的面包图。对于旅游照片中路人的去除、下载图片的水印消除、老照片的上色以及线稿的写实化转换等需求，豆包·图像编辑模型3.0也能轻松应对，为用户提供高质量的图像编辑体验。

与此同时，豆包·同声传译模型2.0也正式发布，该模型拥有3秒极低延迟和0样本声音复刻功能，支持全双工语音理解和生成框架，将传统机器同传的语音延迟从8-10秒降低至2-3秒，实现文本与语音的同步生成。用户无需提前录制，一边说话一边采样，即可实现同一个人同音色开口说外语，带来更沉浸的体验。

此外，豆包大模型1.6系列再次升级，其中极速版Doubao-Seed-1.6-flash模型在保持出色视觉理解能力的同时，提升了代码、推理、数学等大语言模型能力，适用于智能巡检、手机助手、智能硬件等大规模商业化场景。该模型具有业界领先的极低延迟，TPOT仅10毫秒，且具备强大的视觉理解能力。价格方面，在输入文本长度0-32k的区间内，每百万tokens输入仅需0.15元，输出仅1.5元。实际应用中，该模型帮助客户延迟下降60%，成本降低70%。

火山引擎还发布了全模态向量化模型Seed1.6-Embedding，首次实现了“文本+图像+视频”混合模态的融合检索，助力企业构建更强大的多模态知识库。该模型在权威测评榜单中取得了多模态全面任务、中文文本的SOTA成绩。

(以上内容均由Ai生成)