“问小白”发布第四代开源大模型XBai o4

发布时间：2025年8月4日来源：szf

快速阅读: 7月11日，“问小白”发布第四代开源模型 XBai o4，引入“反思型生成范式”，在复杂推理能力上超越 OpenAI 和 Anthropic 的部分模型，提供三种模式适应不同任务需求。

7月11日，“问小白”正式发布了其第四代开源模型 XBai o4。该模型在复杂推理能力上表现出色，其 Medium 模式已全面超越 OpenAI 的 o3-mini，并在部分基准测试中优于 Anthropic 的 Claude Opus。

XBai o4 引入了创新的“反思型生成范式”，通过结合 Long-CoT 强化学习和过程评分学习，实现了深度推理和高效推理链路筛选，同时显著降低了推理成本。

XBai o4 的核心创新在于其独有的“反思型生成范式”。这一范式将 Long-CoT 强化学习与过程评分学习相结合，使单个模型能够同时完成两个关键任务：深度推理，像人类一样进行多步骤的复杂思考；高质量推理链路筛选，评估并选择最优的推理路径。更值得关注的是，XBai o4 通过共享过程评分模型和策略模型的主干网络，将过程评分的推理耗时降低了99%。这一优化大幅提升了模型的运行效率，为实际应用提供了坚实基础。

XBai o4 模型提供了三种模式（low、medium、high），以适应不同复杂度的任务需求。在多项关键基准测试中，其强大性能得到了充分验证：在 Medium 模式下，XBai o4 全面超越了 OpenAI 的 o3-mini 模型；在部分基准测试中，其表现甚至优于 Anthropic 的 Claude Opus。该模型在 AIME24、AIME25、LiveCodeBench v5、C-EVAL 等多个测试中均展现出卓越的推理能力。

“问小白”已在 GitHub 上开源了相关的训练和评估代码，为 AI 研究社区提供了宝贵的资源，也预示着开源大模型在复杂推理领域的竞争力正在迅速增强。地址：https://github.com/MetaStone-AI/XBai-o4

(以上内容均由Ai生成)