字节跳动发布豆包大模型及多项AI技术更新
快速阅读: 据《IT之家 – IT资讯》称,7月30日,厦门,字节跳动火山引擎在FORCE Link AI创新巡展上发布了豆包·图像编辑模型3.0、豆包·同声传译模型2.0及豆包大模型1.6系列的全新升级。这些模型分别在图像编辑、同声传译和多模态融合方面实现了重大突破,火山引擎还宣布开源核心能力并推出多项模型服务和工具产品。
7月30日,厦门,字节跳动火山引擎在FORCE Link AI创新巡展上发布了豆包·图像编辑模型3.0、豆包·同声传译模型2.0及豆包大模型1.6系列的全新升级,并宣布开源核心能力,推出企业自有模型托管方案、Responses API等模型服务和工具产品。
豆包·图像编辑模型SeedEdit 3.0基于强大的文生图模型Seedream 3.0,具有更强的指令执行能力、图像保持能力和更高的图像生成质量。结合多样化的数据融合方法与特定奖励模型,支持1K以上高清图像的生成与处理。用户只需通过自然语言指令,即可完成消除多余内容、改变光影效果、替换文字等操作。该模型能够精准控制风格、结构与语义,解锁更多创新的修图场景,如图像风格转换、变换材质、变化人物姿势等。
豆包·图像编辑模型3.0适用于影像创作、广告营销、游戏宣传等领域。企业用户可通过火山方舟平台调用API,个人用户则可使用即梦或豆包App体验。
此外,豆包·同声传译模型2.0正式发布,支持3秒极低延迟和0样本声音复刻,将传统机器同传的语音延迟从8-10秒降至2-3秒,实现文本与语音同步生成。无需提前录制,边说话边采样,实现0样本声音复刻,为用户提供更沉浸的体验。
豆包大模型1.6系列再次升级,其中极速版Doubao-Seed-1.6-flash模型在保持出色视觉理解能力的同时,增强了代码、推理、数学等大语言模型能力,适用于智能巡检、手机助手、智能硬件等场景。该模型具有业界领先的极低延迟,TPOT仅为10ms,且成本低廉,在实际应用中显著降低了延迟和成本。
火山引擎还发布了全模态向量化模型Seed1.6-Embedding,首次实现“文本+图像+视频”混合模态的融合检索,帮助企业构建更强大的多模态知识库,取得多项权威测评榜单上的SOTA成绩。
(以上内容均由Ai生成)