快速阅读: 美团M17团队推出Meeseeks评测基准,评估大模型指令遵循能力,涵盖理解任务、实现约束和遵循规则。结果显示o3-mini(high)居首,Claude3.7Sonnet第三,DeepSeek-R1和GPT-4o表现不佳。 近 […]