NTT发布新一代闭源LLM“tsuzumi 2”,专攻日语处理与低能耗
快速阅读: NTT推出tsuzumi 2,轻量高性能的日语处理大型语言模型,支持单GPU推理,降低环境影响和成本,适用于敏感数据处理和精细控制场景,强化金融、医疗等领域知识。
随着企业软件堆栈中智能功能的构建、实施和互联不断深入,开放源码与封闭专有语言模型之间的明显(但大体友好)分歧也日益明朗。如今,除了大型(及小型)图像和视频模型外,我们还扩展到了所谓的大型行动模型(LAMs),即旨在理解人类意图并将其转化为特定环境或系统中行动的人工智能模型。
在此背景下,我们可以看到这些模型的开发和创建地点。众所周知,开放模型领域有诸如Anthropic的Claude、Meta的Llama 3、Mistral AI的模型、Google的Gemma、阿里巴巴的Qwen以及微软的Phi-4等工具。因此,像NTT这样的大型企业也开始自行开发自己的大型语言模型(LLM),例如NTT的tsuzumi 2,这是一种更加封闭的专有产品,适用于敏感数据流动和需要更精细控制的应用场景,与任何开放模型相比。
NTT于2023年首次推出tsuzumi,并在2023年的2.0版本中进行了详细介绍。这款以日本传统鼓命名的轻量高性能日语处理大型语言模型,旨在解决广泛采用大型语言模型带来的电力消耗增加和成本上升问题。
为何选择封闭模型?
NTT积极推广适合公共环境、封闭环境及客户业务模式和数据需求的人工智能解决方案。为了增强其AI提案能力和扩大AI产品组合,NTT将tsuzumi 2纳入其中。通过将这些需求反馈到研发中,NTT开发了下一代tsuzumi模型——tsuzumi 2。
单GPU推理
在运行方面,tsuzumi 2继承了在单个GPU上进行推理的能力,从而降低了环境影响和成本。就日语性能而言,tsuzumi 2在同类规模模型中取得了世界顶级的成绩。在商业领域,该技术优先考虑知识、分析、指令遵循和安全性等基本能力。虽然该技术支持其他语言(如英语、韩语、法语、德语等),但其核心扩展功能主要体现在日语上。
专门模型开发
NTT进一步表示,RAG和“微调”提高了为公司和行业开发特定领域模型的效率。tsuzumi 2在金融、医疗和公共部门等客户需求较高的领域强化了知识,因此在这些领域的表现优异,通过专门的微调实现了准确性的提升。
值得一提的是,东京在线大学已经运营了一个本地来源的LLM平台,可将学生和员工的数据保留在校园网络内。经过确认,tsuzumi 2在复杂情境理解和长文档处理方面表现出稳定的性能,达到了复合任务的实际应用水平,因此该大学决定采用tsuzumi 2。
随着tsuzumi 2的推出,NTT承诺将“系统地推进解决方案提供和服务实施”,涵盖整个NTT集团。
(以上内容均由Ai生成)