VibeStudio开发技术缩减LLM体积,性能不减
快速阅读: VibeStudio开发的AI工具THRIFT可大幅缩减中文LLM MiniMax M2的规模,降低成本同时保留大部分性能,使模型更轻便高效,适用于个人和企业。
大型语言模型(LLM)尽管能够执行多种任务,但需要高端GPU和大量内存等计算资源,并且消耗大量的电力。由阿肖克·朱恩朱瓦拉领导的沉浸技术与创业实验室(ITEL)支持的初创公司VibeStudio开发了一种AI工具,该工具可以缩减中文LLM MiniMax M2的规模,使其更加轻便,同时保留了大部分编码能力。
VibeStudio的这一工程流程称为THRIFT(用于推理和微调的目标层次化削减),通过逐层分析模型,识别出那些增加成本但不增加智能的部分。
THRIFT的工作原理是:“遵循混合专家(MOE)架构的LLM具有多个专门领域的专家。当你提出一个问题时,模型内部的路由器会将其路由到合适的专家,比如医疗或数学等领域。THRIFT技术可以剪枝冗余的专家、静默激活路径和死参数,这些都需要额外的资源。”VibeStudio创始人阿俊·雷迪在接受《商业线》采访时说。
因此,该公司将模型大小减少了55%,同时保留了80%的推理强度和编码精度,在许多情况下,响应速度甚至比原始模型更快。“利用THRIFT,你可以以一台Macbook Pro的成本获得原本需要八个H200 GPU(每个价值350万卢比)才能实现的大多数功能。”他说。
这意味着学生、自由职业者和企业可以拥有负担得起、安全的本地AI——无需庞大的基础设施或云服务绑定,ITEL在一份声明中表示。目前,这家初创公司正瞄准以1000万美元的估值筹集200万美元的种子前轮融资,雷迪说。
(以上内容均由Ai生成)