Mistral 推出新的代码嵌入模型，在实际检索任务中性能优于 OpenAI 和 Cohere

快速阅读: 《VentureBeat 公司》消息，法国AI公司米斯特拉尔推出新款代码斯特拉嵌入模型，性能优于同行，适用于代码检索、语义搜索等多种场景，但面临市场竞争压力。

订阅我们的每日和每周简报，获取关于行业前沿人工智能报道的最新资讯和独家内容。了解更多随着对企业检索增强生成（RAG）需求的增加，为企业提供嵌入模型解决方案的机会已经成熟。法国人工智能公司米斯特拉尔推出了其首款嵌入模型——代码斯特拉嵌入模型，并声称在SWE-Bench等基准测试中超越现有嵌入模型的表现。该模型专精于代码领域，在真实世界代码数据的检索场景中表现出色。该模型对开发者的定价为每百万标记符0.15美元。该公司表示，代码斯特拉嵌入模型明显优于主流代码嵌入器，如voyage code 3、cohere嵌入版本v4.0以及openai的嵌入模型，即text embedding 3 large。代码斯特拉嵌入模型作为米斯特拉尔代码斯特拉编码模型系列的一部分，能够将代码和数据转化为数值表示，用于RAG。“代码斯特拉嵌入模型能够输出不同维度和精度的嵌入，下图展示了检索质量与存储成本之间的平衡，”米斯特拉尔在其博客文章中表示。“即使维度为256且精度为int8的代码斯特拉嵌入模型仍然优于我们竞争对手的任何模型。我们的嵌入维度按相关性排列。对于任意整数目标维度n，您可以选择保留前n个维度以在质量和成本之间实现平滑权衡。”

米斯特拉尔在多个基准测试中对该模型进行了测试，包括GitHub上的SWE-Bench和Text2Code。在两种情况下，该公司表示代码斯特拉嵌入模型都优于领先的嵌入模型。

SWE-Bench
Text2Code

使用案例

米斯特拉尔表示代码斯特拉嵌入模型针对“高性能代码检索”和语义理解进行了优化。该公司表示，该代码最适合至少四种使用案例：RAG、语义代码搜索、相似度搜索和代码分析。

嵌入模型通常针对RAG使用案例，因为它们可以加快任务或代理过程的信息检索速度。因此，代码斯特拉嵌入模型专注于此并不令人意外。

该模型还可以执行语义代码搜索，允许开发人员使用自然语言查找代码片段。这种用例非常适合开发者工具平台、文档系统和编码助手。

代码斯特拉嵌入模型还可以帮助开发人员识别重复的代码段或类似的代码字符串，这对有重用代码政策的企业来说非常有用。

该模型支持语义聚类，即将代码根据功能或结构分组。这种用例有助于分析存储库、分类和发现代码架构中的模式。

嵌入领域的竞争正在加剧

米斯特拉尔在发布新模型和代理工具方面一直表现良好。它发布了米斯特拉尔中型3号，这是其旗舰大型语言模型（LLM）的中型版本，目前为其面向企业的平台Le Chat Enterprise提供动力。它还宣布了代理API，允许开发人员访问创建执行现实任务的代理并协调多个代理的工具。

米斯特拉尔向开发人员提供更多模型选项的举措在开发社区中并未被忽视。一些人在X上指出，米斯特拉尔发布代码斯特拉嵌入模型的时机“正值竞争加剧之际”。然而，米斯特拉尔必须证明代码斯特拉嵌入模型不仅在基准测试中表现良好。

尽管它与openai和cohere等更封闭的模型竞争，代码斯特拉嵌入模型也面临着来自qodo的开源选项的竞争，包括qodo-embed-1-1.5 b。