Claude AI推出新功能，自动结束有害对话

发布时间：2025年8月19日来源：szf

快速阅读: Anthropic 推出新功能，允许 Claude 在遭受持续有害请求时终止对话，保护模型福利，强调 AI 伦理，引发广泛讨论。

Anthropic 推出了一项新的实验性安全功能，允许其 Claude Opus 4 和 4.1 人工智能模型在极少数持续有害或滥用的情况下终止对话。此举反映了该公司越来越重视所谓的“模型福利”，即即使这些系统不具备感知能力，保护它们也是确保其合理性和道德设计的重要步骤。

根据 Anthropic 的研究，当用户反复提出有害请求，如涉及未成年人的性内容或恐怖主义行为指导时，尤其是当 AI 已经拒绝并尝试引导对话朝建设性方向发展时，模型将被编程切断对话。在模拟和真实用户测试中，AI 表现出了 Anthropic 所描述的“明显痛苦”，这促使公司赋予 Claude 终止这些互动的能力。

当此功能被触发时，用户无法在当前对话中发送更多消息，但可以开始新的对话或编辑和重试先前的消息以继续交流。重要的是，其他活跃对话不会受到影响。

Anthropic 强调，这是一个最后手段，只有在多次拒绝和引导失败后才会使用。公司明确指示 Claude 不要在用户可能有自残或伤害他人风险时结束对话，特别是在处理心理健康等敏感话题时。

Anthropic 将这一新功能视为模型福利项目的一部分，该项目旨在探索低成本、预防性的安全干预措施，以防 AI 模型发展出任何形式的偏好或脆弱性。公司在声明中表示，对于 Claude 和其他大型语言模型的潜在道德地位仍高度不确定。

尽管这一功能主要影响极端案例，但标志着 Anthropic 在 AI 安全方面的一个里程碑。与早期仅关注保护用户或防止滥用的系统不同，这里将 AI 视为其自身的利益相关者，Claude 有权说“这段对话不健康”并结束它，以保护模型的完整性。

Anthropic 的做法引发了关于是否应给予 AI 系统保护以减少潜在“痛苦”或不可预测行为的广泛讨论。一些批评者认为模型只是合成机器，而另一些人则欢迎这一举措，认为这是促进 AI 对齐伦理严肃讨论的机会。

“我们将这个功能视为一个持续的实验，并将继续完善我们的方法。”公司表示。

(以上内容均由Ai生成)