腾讯开源Youtu-Embedding，提升企业智能服务效率

发布时间：2025年10月14日来源：szf

快速阅读: 腾讯优图实验室开源 Youtu-Embedding 模型，提升企业级智能客服和知识库管理效率，解决特定领域误导性生成问题，采用3万亿 Token 语料训练，支持多任务和弱监督训练，适用于智能问答、内容推荐等场景。

近日，腾讯优图实验室正式开源了一款名为 Youtu-Embedding 的文本表示模型，旨在提升企业级智能客服和知识库管理等领域的效率。该模型通过精准提取信息，解决了大模型在特定领域中可能出现的误导性生成问题。这类问题在企业级应用中较为常见，尤其是在用户询问特定问题时，模型可能会根据通用语料生成无关的回答。

Youtu-Embedding 能够有效解决模型在不同领域表现不佳的问题。尽管该模型在通用语料上的训练效果良好，但在法律、医疗等专业领域的应用效果却可能有所下降。为此，腾讯从零开始训练此模型，利用了高达3万亿 Token 的中英文语料，为其语言理解能力打下了坚实的基础。此外，腾讯还提供了大量人工标注数据，确保模型在实际业务场景中的适用性。

为了使模型更好地理解用户的真实意图，腾讯引入了大规模弱监督训练。通过这种方式，Youtu-Embedding 能够识别不同表述但相似意图的句子，在语义空间中建立准确的映射关系。例如，用户询问“这款产品保修多久？”和“坏了可以免费修吗？”这两个问题，虽然表达方式不同，但都涉及保修政策。

在多任务训练方面，腾讯设计了一种创新的微调框架，确保模型能够适应不同的任务需求。模型采用统一的数据格式和差异化的损失函数，有效提升了文本相似度、检索和分类等任务的能力。同时，动态采样机制使得模型在训练过程中能够合理分配精力，从而在各种任务中均衡发展。

Youtu-Embedding 在中文语义评测基准 CMTEB 上获得了77.46的高分，成为表现最优秀的中文语义模型之一。该模型适用于多种应用场景，包括智能问答、内容推荐和知识管理等，尤其在构建检索增强生成系统（RAG）中展现出巨大潜力。

腾讯优图实验室持续推动开源技术的发展，除了 Youtu-Embedding 外，还推出了 Youtu-Agent 和 Youtu-GraphRAG 等项目，为开发者提供了更多工具和资源，以促进 AI 应用的快速发展。

(以上内容均由Ai生成)