华为云Tokens服务接入384超节点,性能提升至2400TPS
快速阅读: 华为云在第四届828 B2B企业节上宣布Tokens服务接入CloudMatrix384超节点,实现2400TPS、50ms TPOT性能,满足AI算力需求激增。
在第四届828 B2B企业节开幕式上,华为云宣布其Tokens服务全面接入CloudMatrix384超节点,将发挥系统创新优势,弥补单点不足,实现性能持续提升。华为云通过xDeepServe架构创新,单芯片最高可实现2400TPS、50ms TPOT的超高吞吐和低时延性能,超过业界水平。
华为云表示,过去18个月,中国AI算力需求呈指数级增长。数据显示,2024年初中国日均Token消耗量为1000亿,截至今年6月底,日均Token消耗量已突破30万亿,一年半时间内增长了300多倍,反映出我国人工智能应用规模快速增长,对算力基础设施的需求提出更大挑战。
今年3月,华为云在原有按卡时计费基础上正式推出基于MaaS的Tokens服务,针对不同应用和场景的性能与时延要求,提供在线版、进线版、离线版乃至尊享版等多种规格。华为云宣布,Tokens服务现已正式接入CloudMatrix384,并通过384原生的xDeepServe框架再次实现吞吐量突破,从年初的1920TPS提升至2400TPS,TPOT仅为50ms。
目前,华为云MaaS服务已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型及Versatile、Dify、扣子等主流Agent平台。
(以上内容均由Ai生成)