火山引擎发布豆包新模型,加速Agent开发
快速阅读: 据《AIbase – AI新闻资讯》称,7月30日,厦门,火山引擎在FORCE Link AI创新巡展上发布了豆包系列新模型及AI云原生服务升级成果。新成果包括图像编辑模型3.0、同声传译模型2.0及豆包大模型1.6系列,为企业和开发者提供全栈支持。同时,火山引擎推出扣子核心能力开源和企业自有模型托管方案,助力AI应用落地。
7月30日,厦门,火山引擎在主办的FORCE Link AI创新巡展上发布了豆包系列新模型及AI云原生服务升级成果。这些成果包括豆包·图像编辑模型3.0、同声传译模型2.0以及全新升级的豆包大模型1.6系列。同时,火山引擎还推出了扣子核心能力开源、企业自有模型托管方案等工具,为企业和开发者构建Agent、落地AI应用提供全栈支持。
火山引擎总裁谭待在活动上宣布,豆包系列新模型面向企业开放。针对AI图像编辑中常见的“听不懂指令、误改内容、生成效果差”等问题,火山引擎推出了豆包·图像编辑模型3.0(SeedEdit3.0)。该模型通过增强指令遵循能力、图像保持能力和生成质量,使用户仅需自然语言即可完成消除冗余、调整光影、替换元素等操作,并能实现风格转换、材质变换、姿势调整等创新修图场景。该模型广泛适用于影像创作、广告营销等领域,企业用户可在火山方舟调用其API,个人用户则可通过即梦或豆包App体验。
最新发布的豆包·同声传译模型2.0(Seed-LiveInterpret2.0)突破了传统“级联模型”的局限,采用全双工框架将语音延迟从8-10秒降至2-3秒,实现了文本与语音的同步生成。该模型还支持零样本声音复刻,无需提前录制即可实时生成同音色的外语语音,甚至匹配方言口音,显著提升了跨语言沟通的沉浸感。
豆包大模型1.6系列也进行了升级。其中,极速版Doubao-Seed-1.6-flash模型不仅保持了强大的视觉理解能力,还增强了代码、推理、数学等方面的能力,适用于智能巡检、手机助手等大规模商业化场景。该模型的TPOT(首Token输出时间)低至10毫秒,处于行业领先地位;在成本方面,对于0-32k输入文本长度区间(企业最常用),每百万tokens输入仅需0.15元、输出1.5元,在实际应用中已实现延迟下降60%、成本降低70%。
此外,全模态向量化模型Seed1.6-Embedding首次实现了“文本+图像+视频”混合模态融合检索,帮助企业构建更强大的多模态知识库。在权威测评中,该模型在多模态全面任务及中文文本方面取得了最优成绩。
为了加速Agent的开发与落地,火山引擎持续优化AI云原生全栈服务。7月26日,AI Agent开发平台扣子核心能力正式开源,包括一站式可视化开发工具“扣子开发平台(Coze Studio)”和全链路管理工具“扣子罗盘(Coze Loop)”,采用Apache2.0许可证,用户可在GitHub下载。开源仅三天,Coze Studio星标数破万,Coze Loop星标数超过3000。火山引擎提供了全面支持,企业AI平台HiAgent可调用其能力,云基础产品支持一键部署。
针对有模型定制需求的企业,火山引擎依托火山方舟模型单元推出了自有模型托管方案。企业无需维护底层GPU资源及复杂配置,即可实现自研模型的全托管,享受弹性算力,自主选择部署方式与机型,精准控制时延,且无需为业务低谷期付费,目前已开放邀测。
同时,火山方舟升级了API体系,推出了Responses API。该API具备原生上下文管理能力,支持多轮对话链式管理和文本、图像等多模态数据的衔接,结合缓存能力可降低80%的成本;还支持单次请求联动多个工具与模型组合响应,将智能助手Agent的开发从460行代码、1-2天缩减至60行代码、1小时,大幅提高了效率。
此次系列发布进一步完善了火山引擎的AI生态布局,为企业与开发者提供了从基础模型到开发工具的全链条支持,加速了AI在各行业的落地应用。
(以上内容均由Ai生成)