o3-mini – 数智风暴

美团发布Meeseeks评测基准，o3-mini领跑，DeepSeek-R1垫底引热议

快速阅读: 美团M17团队推出Meeseeks评测基准，评估大模型指令遵循能力，涵盖理解任务、实现约束和遵循规则。结果显示o3-mini(high)居首，Claude3.7Sonnet第三，DeepSeek-R1和GPT-4o表现不佳。近 […]

发布时间：2025-08-29 19:31 来源：szf