阿里巴巴云大幅节省GPU资源,优化模型服务效率
快速阅读: 论文《Aegaeon》指出,Hugging Face列出超百万AI模型,但客户常用者寥寥。阿里云需用17.7% GPU资源处理仅1.35%客户请求,显示资源分配不均问题。
题为《Aegaeon:市场上的并发LLM服务的有效GPU池化》的论文指出,模型市场Hugging Face列出了超过一百万个AI模型,尽管客户主要运行的只有少数几个。阿里巴巴云虽然提供了众多模型,但发现需要将17.7%的GPU资源用于处理仅占1.35%的客户请求。
(以上内容均由Ai生成)