AI

火山引擎优化Prometheus,助力大模型场景稳定高效

发布时间:2025年9月12日    来源:szf
火山引擎优化Prometheus,助力大模型场景稳定高效

快速阅读: QCon全球软件开发大会将于10月23日至25日在上海举办,聚焦AI技术实践与创新,涵盖Agentic AI、多模态融合、混沌工程等20多个专题,百位技术专家分享前沿洞察。

如果你也关注Agent、AI搜索、多模态、工程化等话题,一定不要错过这100+可落地的实践案例! 10月23日-10月25日, QCon全球软件开发大会 “将在上海举办。本次大会将聚焦Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及AI时代下的软件研发、可观测、开源等技术实践,邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家,和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师,和你一起重构技术认知与能力边界! 字节跳动研发工程师郭刚平已确认出席并发表题为《 火山引擎 Prometheus 面向大模型场景的优化实践 “》的主题分享。近年来,AI 技术发展迅猛,相关产品和解决方案已深入社会经济的方方面面,成为驱动创新、提升效率的重要引擎,AI 应用的其可观测技术也成为了行业关注的一个焦点,Prometheus 作为云原生监控领域事实标准,被广泛应用于 AI 大模型和智能驾驶领域的可观测任务,用于实现最佳性能及减少故障。本次演讲将分享火山引擎托管 Prometheus 在服务 AI 领域客户(如火山方舟)过程中,积累的保障 AI 推理服务时序数据库稳定性的关键技术实践,希望能给听众带来一些启发和思考。

郭刚平,字节跳动基础架构可观测团队研发工程师,多年可观测领域从业经验,在可观测系统架构设计、大规模数据链路性能优化、稳定性保障方面有比较多的实践经验,现任火山引擎托管 Prometheus 产品研发负责人。他在本次会议的详细演讲内容如下: 演讲提纲 1. 大模型场景指标观测需求和挑战 推理训练场景指标大规模高基数问题方舟大量接入点带来十亿级别的时序基数自动驾驶云大量短时训练任务引起高基数单指标高基数导致大查询在线推理服务扩缩容调度需求流量高峰需要快速扩容对查询可用性的要求K8s 基础的 HPA 不满足要求,需要基于 GPU 等自定义指标来作为扩缩容依据推理服务流量亲和性调度对指标实时性的要求大流量租户 Qos 保障需求写入链路网关共享集群导致的租户间写入相互影响查询链路单一租户大查询影响同一集群下的其他租户可用性 2. 新时代下 Prometheus 核心演进思路 端到端稳定性保障集群粒度、租户粒度、查询粒度写入水平扩展、统一聚合查询,支撑大规模数据量原地数据分析 & AIOps 数据探查大规模场景下大模型的监控架构 3. 火山引擎托管 Prometheus 优化实践 高基数问题高流失率高基数时序场景下的短时查询优化查询预聚合降低基数与业务侧对齐打点最佳实践方案在线推理调度对指标可用性&实时性的需求近用户集群侧实时指标缓存大流量租户 Qos 保障写入链路大流量租户网关自动拆分独立分组查询链路大查询发现和治理面向” Never OOM “的查询组件设计Shuffle Sharding 查询聚合工作区 突破单集群规模上限Sharding 写入 & 聚合查询 4. 大模型场景实战效果 稳定支撑火山引擎方舟十亿级时序读写,实现业务零改造低成本水平扩展近集群侧实时指标,助力在线推理服务 TTFT 延迟降低 40% 5. 未来与展望 更高性能、更低成本的下一代时序存储Inplace 时序数据分析能力AIOps 能力内外复用上云 实践痛点 时序的高基数问题是个持续易反复的问题,因为生产端是不受控的,如何在保障系统稳定性的前提下尽最大努力保障用户的可用性和体验是一个持久战,不仅仅是技术层面,也需要用户侧的宣贯和配套的基础建设来减少不合理使用姿势 听众受益 了解端到端构建稳定的监控方案了解大规模场景下大模型的监控架构实践了解 Prometheus 创新性技术落地 除此之外,本次大会还策划了 多模态融合技术与创新应用 “、 混沌工程与全链路压测实践 “、 Data Infra for AI “、 Agentic AI “、 加速与反哺:AI 时代的可观测实践 “、 Vibe Coding “、 端侧大模型的创新与应用 “、 大模型推理的工程实践 “、 AI 搜索技术的深水区 “、 模型训练与微调 “、 具身智能:当 AI 学会“动手思考” “、 大模型驱动的制造革命 “、 AI4SE:软件研发提质增效实践 “、 AI 重塑视觉创作体验 “、 从“炫技”走向“实用”的 AI 产品 “、 大模型驱动的智能数据分析 “等20多个专题论坛,届时将有来自不同行业、不同领域、不同企业的100+资深专家在QCon上海站现场带来前沿技术洞察和一线实践经验。

现在报名即可以享受 9 折优惠,单张门票立省 680 元,,详情可联系票务经理 18514549229 咨询。

(以上内容均由Ai生成)

你可能还想读

Coinbase新协议让AI自主完成加密支付

Coinbase新协议让AI自主完成加密支付

快速阅读: Coinbase推出MCP工具,基于x402协议,使AI代理能持有钱包、发送稳定币支付,实现机器间加密货币转账,内置限额和合规检查确保安全。 Coinbase新推出的MCP工具允许人工智能代理持有钱包并发送稳定币支付。基于Coi […]

发布时间:2025年10月24日
硅实验室推出Simplicity Ecosystem,简化物联网开发流程

硅实验室推出Simplicity Ecosystem,简化物联网开发流程

快速阅读: 硅实验室推出Simplicity生态系统,旨在简化嵌入式物联网开发,包括Simplicity Studio 6和2026年推出的Simplicity AI SDK,提供模块化工具和AI辅助设计,支持多种物联网标准。 硅实验室推出 […]

发布时间:2025年10月24日
老旧印刷厂变身高效AI数据中心

老旧印刷厂变身高效AI数据中心

快速阅读: 帕特莫斯利用旧印刷厂的液体设施,支持每机柜50至140千瓦电力需求,采用多环路液体冷却系统,确保高效散热与硬件保护,接入堪萨斯城区域冷水供应,实现环保节能。 他说道:“我认为,棕地是一种极具创意的方法来应对我们当前面临的最大问题 […]

发布时间:2025年10月24日
AI安全集成:Snyk Evo引领企业智能防护新纪元

AI安全集成:Snyk Evo引领企业智能防护新纪元

快速阅读: 数字系统的快速发展要求安全架构更加智能、灵活。Snyk Evo通过自主编排、AI感知和主动保护,重新定义AI应用安全,减少暴露风险,简化开发流程。 数字系统的快速发展迫使安全架构必须更快地思考、更智能地行动并即时适应。随着各组织 […]

发布时间:2025年10月24日
黄仁勋:美光对下一代AI突破至关重要

黄仁勋:美光对下一代AI突破至关重要

快速阅读: 英伟达与美光合作,推动AI基础设施发展。美光HBM3E内存助力英伟达GPU,提升AI性能。黄仁勋称,高性能内存对AI应用至关重要,双方合作开启消费级和企业级AI新水平。 在全球领导层就人工智能可持续发展进行辩论之际,各公司纷纷投 […]

发布时间:2025年10月24日
苹果COO确认休斯顿制造AI服务器提前发货

苹果COO确认休斯顿制造AI服务器提前发货

快速阅读: 苹果首席运营官萨比赫·汗确认,因特朗普总统推动,苹果从休斯顿新工厂提前出货美国制造的人工智能服务器,此举响应总统号召,促进本国就业。 苹果首席运营官萨比赫·汗在接受福克斯新闻网数字版采访时确认,公司正从其位于休斯顿的新工厂提前出 […]

发布时间:2025年10月24日
微软Edge浏览器增强Copilot模式,挑战AI浏览器市场

微软Edge浏览器增强Copilot模式,挑战AI浏览器市场

快速阅读: 微软Edge浏览器推出Copilot模式,提供AI代理功能,包括Actions和Journeys,支持语音操作完成任务及记录浏览历史,帮助用户从中断处继续。 Edge 浏览器推出 Copilot 模式,带来更强大的代理 AI 功 […]

发布时间:2025年10月24日
阿联酋总统重组人工智能与先进技术委员会

阿联酋总统重组人工智能与先进技术委员会

快速阅读: 阿布扎比总统重组人工智能与先进技术委员会,由谢赫·塔农任主席,旨在加速AI政策实施与技术发展,推动《阿布扎比数字政府战略2025-2027》实现。 阿布扎比,10月23日(WAM/ANI):阿布扎比酋长国总统谢赫·穆罕默德·本· […]

发布时间:2025年10月24日