腾讯开源Youtu-Embedding,提升企业智能服务效率
快速阅读: 腾讯优图实验室开源 Youtu-Embedding 模型,提升企业级智能客服和知识库管理效率,解决特定领域误导性生成问题,采用3万亿 Token 语料训练,支持多任务和弱监督训练,适用于智能问答、内容推荐等场景。
近日,腾讯优图实验室正式开源了一款名为 Youtu-Embedding 的文本表示模型,旨在提升企业级智能客服和知识库管理等领域的效率。该模型通过精准提取信息,解决了大模型在特定领域中可能出现的误导性生成问题。这类问题在企业级应用中较为常见,尤其是在用户询问特定问题时,模型可能会根据通用语料生成无关的回答。
Youtu-Embedding 能够有效解决模型在不同领域表现不佳的问题。尽管该模型在通用语料上的训练效果良好,但在法律、医疗等专业领域的应用效果却可能有所下降。为此,腾讯从零开始训练此模型,利用了高达3万亿 Token 的中英文语料,为其语言理解能力打下了坚实的基础。此外,腾讯还提供了大量人工标注数据,确保模型在实际业务场景中的适用性。
为了使模型更好地理解用户的真实意图,腾讯引入了大规模弱监督训练。通过这种方式,Youtu-Embedding 能够识别不同表述但相似意图的句子,在语义空间中建立准确的映射关系。例如,用户询问“这款产品保修多久?”和“坏了可以免费修吗?”这两个问题,虽然表达方式不同,但都涉及保修政策。
在多任务训练方面,腾讯设计了一种创新的微调框架,确保模型能够适应不同的任务需求。模型采用统一的数据格式和差异化的损失函数,有效提升了文本相似度、检索和分类等任务的能力。同时,动态采样机制使得模型在训练过程中能够合理分配精力,从而在各种任务中均衡发展。
Youtu-Embedding 在中文语义评测基准 CMTEB 上获得了77.46的高分,成为表现最优秀的中文语义模型之一。该模型适用于多种应用场景,包括智能问答、内容推荐和知识管理等,尤其在构建检索增强生成系统(RAG)中展现出巨大潜力。
腾讯优图实验室持续推动开源技术的发展,除了 Youtu-Embedding 外,还推出了 Youtu-Agent 和 Youtu-GraphRAG 等项目,为开发者提供了更多工具和资源,以促进 AI 应用的快速发展。
(以上内容均由Ai生成)