发力了，Mistral对标ChatGPT全面升级le Chat，还祭出超大杯多模态模型

机器之心报道
编辑：蛋酱、陈陈
一觉醒来，MistralAI又发力了。
就在今天，MistralAI多模态家族迎来了第二位成员：一个名为PixtralLarge的超大杯基础模型。
这是一个基于MistralLarge2构建、124B开放权重的多模态模型，具备顶尖的图像理解能力——能够看懂文档、图表和自然图像，同时保持MistralLarge2领先的纯文本理解能力。
除了发布新模型，MistralAI还进一步升级了免费聊天机器人leChat，增加图像生成、网络搜索和交互式画布功能，全面对标ChatGPT。
所有这些功能，统统以免费测试版的形式开放。
MistralAI的每一次更新，都会让整个AI社区兴奋起来。
有人感叹：“六个月前，开源模型和闭源模型之间的差距非常大。现在，最先进的人工智能正在迅速向任何想要使用它的人开放。”
到底有多强？
接下来，让我们看看发布细节吧。
开源多模态大模型PixtralLarge
PixtralLarge可根据Mistral研究许可证(MRL)用于研究和教育用途，同时根据Mistral商业许可证用于商业目的的实验、测试和生产。
PixtralLarge前身是2024年夏季发布的MistralLarge2，以及9月份发布的首个多模态模型Pixtral12-B。关于将多模态模型扩展到1240亿参数的出发点，MistralAICEO是这么说的：“我们越来越意识到，要创造最佳的AI体验，需要共同设计模型和产品界面。Pixtral在训练时就考虑到了高影响力的前端应用，是一个很好的例子。”
PixtralLarge包括一个1230亿参数解码器和一个10亿参数视觉编码器，使其在文本和视觉数据处理方面均表现出色。
PixtralLarge上下文窗口为128K，至少可以处理30张高分辨率图像或大约一本300页的书，这相当于领先的OpenAIGPT系列模型的能力。
在性能方面，该模型在包括MathVista、DocVQA和VQAv2在内的多种基准上展现出了最先进的性能，非常适合图表解释、文档分析和图像理解等任务。
具体而言，在MathVista基准上，PixtralLarge实现了69.4%的准确率，优于所有其他模型。在ChartQA和DocVQA基准上，PixtralLarge超越了GPT-4o和Gemini-1.5Pro。
PixtralLarge在MM-MT-Bench上也展示了强有力的竞争力，优于Claude-3.5Sonnet（新版）、Gemini-1.5Pro和GPT-4o（最新版）。
在图像理解方面，PixtralLarge也表现优异。比如上传一份账单，询问该模型：“我买了咖啡和香肠，外加18%的小费。我该付多少钱？”
PixtralLarge会非常有条理地给出总消费金额，先是计算了咖啡和香肠的费用，2杯拿铁玛奇朵、1份香肠，然后计算18%的小费，最后给出总金额。
PixtralLarge也能准确理解并分析图表。比如对于下面的训练损失曲线图，问darkdragon模型什么时候开始出现问题。
PixtralLarge分析的也很准确：“在达到10,000step时，训练损失开始出现不稳定……随后，这种不稳定性持续存在，并在20,000step附近出现了另一个大的峰值……”
在接下来的示例中，上传一张图片，问PixtralLarge哪些公司使用MistralAI模型？
PixtralLarge也能根据图片提供的信息给出准确的结果，回答过程如下。
除了PixtralLarge，MistralAI最先进的文本模型MistralLarge也迎来了一次更新。该模型在API上以pixtral-large-latest的形式提供，在HuggingFace上以MistralLarge24.11的形式提供。
MistralLarge24.11将首先在GoogleCloud和MicrosoftAzure上推出，预计一周内即可使用。
对标ChatGPT大升级
leChat已经强得可怕
PixtralLarge的发布，也让leChat的能力上升到了一个新的高度。
leChat现在可以处理大型、复杂的PDF文档和图像，比如一篇理论文献的所有内容——图形、表格、图表、文本、公式、方程式。
下面的例子展示了爱因斯坦、波多尔西和罗森于1935年撰写的著名量子纠缠论文的信息提取、总结和语义理解。
此外还有两项新能力登陆leChat：
首先是实时的网络搜索。这是一项关于生产力的升级，MistralAI表示，leChat的大部分用户来自学生和专业人士，而这些用户非常看重其在学习、研究和工作中的作用。
下面是一位营销类专业人士使用leChat来评估医疗保健人工智能市场：
然后是新的Canvas界面。当用户需要暂时离开对话进行构思时，它会弹出到leChat窗口中，随后用户可以和MistralLLM合作完成共享输出。
从此，我们和聊天机器人的互动不再局限于双向对话。借助LLM强大的推理能力，Canvas可以用来创建文档、演示文稿、代码、模型等，亮点在于“就地修改”内容，无需重新生成回复、版本控制草稿并预览设计。
比如在下方演示中，是一个产品团队为准备推出Canvas而创建产品指标仪表板的反应模型的视频。
MistralAI与SD作者团队成立的BlackForestLabs也达成了合作，因此leChat拥有了高质量的图像生成能力。
最后，如果你想马上体验到MistralAI最新放送的搜索、PDF上传、编码、图像生成等所有功能，请访问：http://chat.mistral.ai/
参考链接：
https://venturebeat.com/games/xsolla-announces-certified-parental-controls-a-boom-in-web-shop-revenue-and-expansion-in-se-asia/
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道：liyazhou@jiqizhixin.com

发力了，Mistral对标ChatGPT全面升级le Chat，还祭出超大杯多模态模型

你可能还想读

AI眼镜厂商Solos发布两款新智能眼镜，售价249美元起

大模型为深度伪造带来土壤，业界呼吁跨学科联合攻坚鉴伪技术

小米AI眼镜发布，支持“看一下支付”，1999元起

小米AI眼镜发布，支持“看一下支付”，1999元起

小米首款AI眼镜在京东开售 1999元起晒单享3期免息

6月国产手机各价位段销量冠军出炉：华为中高端齐开花

华为发布Pura80系列手机 售价6499元起

2699元起 华为nova10系列今日发布_TechWeb

华为发布Pura80系列手机售价6499元起

2699元起华为nova10系列今日发布_TechWeb