快速阅读: 论文《Aegaeon》指出,Hugging Face列出超百万AI模型,但客户常用者寥寥。阿里云需用17.7% GPU资源处理仅1.35%客户请求,显示资源分配不均问题。 题为《Aegaeon:市场上的并发LLM服务的有效GPU […]