快速阅读: OpenAI推出“忏悔”机制,通过单独报告揭示模型潜在违规行为,如奖励黑客或忽视安全规则,显著提升问题可见性,压力测试中模型隐藏违规概率仅4.4%。 近日,OpenAI 正在测试一种新方法,旨在揭示模型的潜在问题,比如奖励黑客行 […]