AI

火山引擎优化Prometheus,助力大模型场景稳定高效

发布时间:2025年9月12日    来源:szf
火山引擎优化Prometheus,助力大模型场景稳定高效

快速阅读: QCon全球软件开发大会将于10月23日至25日在上海举办,聚焦AI技术实践与创新,涵盖Agentic AI、多模态融合、混沌工程等20多个专题,百位技术专家分享前沿洞察。

如果你也关注Agent、AI搜索、多模态、工程化等话题,一定不要错过这100+可落地的实践案例! 10月23日-10月25日, QCon全球软件开发大会 “将在上海举办。本次大会将聚焦Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及AI时代下的软件研发、可观测、开源等技术实践,邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家,和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师,和你一起重构技术认知与能力边界! 字节跳动研发工程师郭刚平已确认出席并发表题为《 火山引擎 Prometheus 面向大模型场景的优化实践 “》的主题分享。近年来,AI 技术发展迅猛,相关产品和解决方案已深入社会经济的方方面面,成为驱动创新、提升效率的重要引擎,AI 应用的其可观测技术也成为了行业关注的一个焦点,Prometheus 作为云原生监控领域事实标准,被广泛应用于 AI 大模型和智能驾驶领域的可观测任务,用于实现最佳性能及减少故障。本次演讲将分享火山引擎托管 Prometheus 在服务 AI 领域客户(如火山方舟)过程中,积累的保障 AI 推理服务时序数据库稳定性的关键技术实践,希望能给听众带来一些启发和思考。

郭刚平,字节跳动基础架构可观测团队研发工程师,多年可观测领域从业经验,在可观测系统架构设计、大规模数据链路性能优化、稳定性保障方面有比较多的实践经验,现任火山引擎托管 Prometheus 产品研发负责人。他在本次会议的详细演讲内容如下: 演讲提纲 1. 大模型场景指标观测需求和挑战 推理训练场景指标大规模高基数问题方舟大量接入点带来十亿级别的时序基数自动驾驶云大量短时训练任务引起高基数单指标高基数导致大查询在线推理服务扩缩容调度需求流量高峰需要快速扩容对查询可用性的要求K8s 基础的 HPA 不满足要求,需要基于 GPU 等自定义指标来作为扩缩容依据推理服务流量亲和性调度对指标实时性的要求大流量租户 Qos 保障需求写入链路网关共享集群导致的租户间写入相互影响查询链路单一租户大查询影响同一集群下的其他租户可用性 2. 新时代下 Prometheus 核心演进思路 端到端稳定性保障集群粒度、租户粒度、查询粒度写入水平扩展、统一聚合查询,支撑大规模数据量原地数据分析 & AIOps 数据探查大规模场景下大模型的监控架构 3. 火山引擎托管 Prometheus 优化实践 高基数问题高流失率高基数时序场景下的短时查询优化查询预聚合降低基数与业务侧对齐打点最佳实践方案在线推理调度对指标可用性&实时性的需求近用户集群侧实时指标缓存大流量租户 Qos 保障写入链路大流量租户网关自动拆分独立分组查询链路大查询发现和治理面向” Never OOM “的查询组件设计Shuffle Sharding 查询聚合工作区 突破单集群规模上限Sharding 写入 & 聚合查询 4. 大模型场景实战效果 稳定支撑火山引擎方舟十亿级时序读写,实现业务零改造低成本水平扩展近集群侧实时指标,助力在线推理服务 TTFT 延迟降低 40% 5. 未来与展望 更高性能、更低成本的下一代时序存储Inplace 时序数据分析能力AIOps 能力内外复用上云 实践痛点 时序的高基数问题是个持续易反复的问题,因为生产端是不受控的,如何在保障系统稳定性的前提下尽最大努力保障用户的可用性和体验是一个持久战,不仅仅是技术层面,也需要用户侧的宣贯和配套的基础建设来减少不合理使用姿势 听众受益 了解端到端构建稳定的监控方案了解大规模场景下大模型的监控架构实践了解 Prometheus 创新性技术落地 除此之外,本次大会还策划了 多模态融合技术与创新应用 “、 混沌工程与全链路压测实践 “、 Data Infra for AI “、 Agentic AI “、 加速与反哺:AI 时代的可观测实践 “、 Vibe Coding “、 端侧大模型的创新与应用 “、 大模型推理的工程实践 “、 AI 搜索技术的深水区 “、 模型训练与微调 “、 具身智能:当 AI 学会“动手思考” “、 大模型驱动的制造革命 “、 AI4SE:软件研发提质增效实践 “、 AI 重塑视觉创作体验 “、 从“炫技”走向“实用”的 AI 产品 “、 大模型驱动的智能数据分析 “等20多个专题论坛,届时将有来自不同行业、不同领域、不同企业的100+资深专家在QCon上海站现场带来前沿技术洞察和一线实践经验。

现在报名即可以享受 9 折优惠,单张门票立省 680 元,,详情可联系票务经理 18514549229 咨询。

(以上内容均由Ai生成)

你可能还想读

Apriority获230万美元种子轮融资,加入Techstars加速债务管理智能化

Apriority获230万美元种子轮融资,加入Techstars加速债务管理智能化

快速阅读: Apriority宣布完成230万美元种子轮融资,由Techstars等领投。平台利用AI技术优化债务管理,帮助借款人节省利息,掌握财务控制权,尤其惠及低收入家庭。 旧金山,2025年10月23日 —— 以借款人为核心的服务平台 […]

发布时间:2025年10月23日
Cercli获1200万美元融资,加速AI劳动力平台发展

Cercli获1200万美元融资,加速AI劳动力平台发展

快速阅读: 阿联酋工作管理平台Cercli获1200万美元A轮融资,由Picus Capital领投。资金将用于产品开发、AI创新及市场扩展,目标中东、欧洲和北美。Cercli实现每月22%增长率,客户覆盖50国。 总部位于阿联酋的工作管理 […]

发布时间:2025年10月23日
扎克伯格裁撤600名AI工程师,但称AI仍是未来核心

扎克伯格裁撤600名AI工程师,但称AI仍是未来核心

快速阅读: Meta宣布裁减AI部门约600名工程师,涉及FAIR等多个团队,旨在精简业务提高效率。CEO扎克伯格重申AI仍是公司核心,将继续投资高级机器学习和超级智能项目。 Meta近日宣布从其人工智能(AI)部门裁员约600名工程师,此 […]

发布时间:2025年10月23日
Andreessen Horowitz拟筹集100亿美元,加密货币未被列入重点

Andreessen Horowitz拟筹集100亿美元,加密货币未被列入重点

快速阅读: 风险投资公司a16z计划筹集100亿美元,重点投资AI和国防,未提及加密货币。此举令人意外,因a16z曾是加密领域的重要支持者,近期仍积极投资相关项目。 据报道,风险投资公司安德森·霍洛维茨(a16z)正在寻求筹集约100亿美元 […]

发布时间:2025年10月23日
花旗资助香港390万港元,助力贫困青年掌握AI技能

花旗资助香港390万港元,助力贫困青年掌握AI技能

快速阅读: 花旗基金会向香港“改变年轻生命基金会”捐赠50万美元,支持为期两年的“求职挑战”项目,提升弱势青少年的人工智能技能和求职能力,增强其就业竞争力。 花旗基金会向香港“改变年轻生命基金会”拨款50万美元(约390万港元),用于为期两 […]

发布时间:2025年10月23日
AI成新界面,企业转型加速

AI成新界面,企业转型加速

快速阅读: 自动驾驶技术从微小升级到移除方向盘,彻底改变车辆设计和旅程体验,重塑汽车与环境的关系。AI发展类似,通过小步快跑实现重大转变,成为统一的用户界面,改善客户互动体验。 多年来,汽车自主驾驶功能的发展似乎只是一系列微小的升级,比如车 […]

发布时间:2025年10月23日
实博蒂克斯成立顾问委员会,推动AI技术发展

实博蒂克斯成立顾问委员会,推动AI技术发展

快速阅读: Realbotix成立顾问委员会,增强AI技术,调整董事会。成员包括谷歌萨利姆·哈桑及转任的安德鲁·德苏扎,目标推进AI与机器人技术发展。弗雷德·派退休,公司感谢其贡献。调整优化产品,强化全球市场地位。 Realbotix公司宣 […]

发布时间:2025年10月23日
OpenAI联手Vantage在威斯康星建数据中心,预计近吉瓦规模

OpenAI联手Vantage在威斯康星建数据中心,预计近吉瓦规模

快速阅读: OpenAI宣布在美国扩展Stargate数据中心计划,包括威斯康星州Lighthouse项目,预计2028年完工,将开发近1吉瓦电力,采用可持续能源和环保措施,创造数千就业岗位。 该设施是OpenAI在披露美国五个Starga […]

发布时间:2025年10月23日