Tilde发布开源多语言大模型，提升欧洲语言公平性

发布时间：2025年9月8日来源：szf

快速阅读: 拉脱维亚Tilde发布TildeOpen LLM，支持多欧洲语言，尤其关注小国语言。模型含300亿参数，训练使用200万GPU小时，提升语言平等和数据主权。

2025年9月3日，拉脱维亚语言技术公司Tilde发布了TildeOpen LLM，这是一款开源的大语言模型（LLM），旨在支持欧洲语言，尤其是那些较少被代表的国家和地区语言。此举标志着欧盟在语言平等和数字主权方面迈出了重要一步。

TildeOpen LLM是一个拥有300亿参数的密集解码器模型，采用CC-BY-4.0许可，能够支持从拉脱维亚语、立陶宛语到乌克兰语、土耳其语等多种语言。该模型的训练在欧洲超级计算机LUMI（位于芬兰）和JUPITER上进行，使用了欧盟委员会通过大型人工智能挑战赛提供的200万GPU小时计算资源。

在技术细节上，TildeOpen LLM通过受EleutherAI启发的GPT-NeoX脚本训练，共进行了45万次更新，使用了约2万亿个令牌。其训练过程包括三个阶段的采样：首先在语言间均匀分布，接着对数据量大的语言进行自然分布增强，最后进行均匀扫描以确保平衡。模型的超参数包括60层、嵌入维度6144、48个注意力头、8192-token的上下文窗口，以及使用SwiGLU激活、RoPE位置编码和RMSNorm层归一化。

在语言平等和数据主权方面，传统的主要模型通常侧重于英语和其他主要语言，导致在处理波罗的海、斯拉夫及其他较小的欧洲语言时表现不佳，经常出现语法错误和措辞不当。而TildeOpen通过引入“公平的标记器”，使不同语言的文本以类似的方式表示，减少了标记数量，提高了较少代表语言的推理效率。此外，组织可以选择在本地数据中心或符合欧盟要求的安全云中自我托管，确保遵循GDPR及其他数据保护法规，解决了与美国或亚洲托管模型相关的主权问题。

作为基础模型，TildeOpen预计将推出更多专门化版本，如经过指令调优的翻译模型，这将进一步增强其功能。拉脱维亚希望通过Tilde的努力，在全球科技领域占据一席之地，同时致力于保护语言多样性。