快速阅读: Meta推出新评估平台ARE及基准模型Gaia2,模拟现实世界环境,评估智能体在动态条件下的适应能力。Gaia2支持多协议,测试智能体应对变化条件、故障及模糊指令的表现,OpenAI的GPT-5在测试中领先。 在智能体性能评估领 […]