华为云全面接入384超节点,Tokens服务性能提升至2400TPS
快速阅读: 华为云在第四届828 B2B企业节上宣布Tokens服务接入CloudMatrix384超节点,通过xDeepServe架构创新,实现2400TPS、50ms TPOT的高性能,满足AI算力需求激增。
第四届828 B2B企业节开幕式上,华为云宣布其Tokens服务全面接入CloudMatrix384超节点,将发挥系统创新优势,弥补单点不足,实现性能持续提升。华为云介绍,通过xDeepServe架构创新,单芯片最高可实现2400TPS、50ms TPOT的超高吞吐、低时延性能,超过业界水平。
过去18个月,中国AI算力需求呈现指数级增长。数据显示,2024年初中国日均Token消耗量为1000亿,截至今年6月底,日均Token消耗量已突破30万亿,一年半时间增长了300多倍,反映出我国人工智能应用规模快速增长,也对算力基础设施提出了更大挑战。
华为云于今年3月在原有按卡时计费基础上正式推出基于MaaS的Tokens服务,针对不同应用和场景的性能和时延要求,提供在线版、进线版、离线版乃至尊享版等多种规格。华为云表示,Tokens服务现已正式接入CloudMatrix384,并通过384原生的xDeepServe框架再次实现吞吐量突破,从年初的1920TPS提升至2400TPS,TPOT仅为50ms。
目前,华为云MaaS服务已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型及versatile、Dify、扣子等主流Agent平台。
(以上内容均由Ai生成)