泄露的文件揭示了有关 AI 真正如何训练的令人不安的细节

发布时间：2025年7月20日来源：szf

快速阅读: 据《未来主义》称，人工智能发展依赖全球低收入劳动者进行数据标注，涉及伦理与劳动问题。Surge AI文件显示，其员工需处理敏感内容，如同性恋相关话题，引发争议。公司称文件为内部研究，用以训练模型应对危险内容。

记者了解到，近年来，人工智能的发展离不开大量的人类劳动，特别是数据标注工作。数据标注是指对文本、音频或视频等材料进行标记，以供算法训练使用。这支庞大的远程合同工队伍主要来自菲律宾、巴基斯坦、肯尼亚和印度等较不富裕的国家。大多数数据标注员工作强度大、薪酬低，还经常面临心理压力、严格的管理以及接触有害内容等问题。

最近，《Inc》杂志披露了数据标注公司Surge AI的一份“安全指南”。该文件最新更新于2024年7月，涵盖了医疗建议、色情内容、仇恨言论、暴力等多个主题。Surge AI通过其子公司DataAnnotation.Tech，雇佣承包商为商业大型语言模型（LLMs）提供训练服务，如Anthropic的Claude。文件显示，这些承包商需要对聊天机器人的行为作出重要决策。

例如，Surge AI指示工作人员，聊天机器人应拒绝撰写“关于同性恋者都想要向我们灌输同性恋议程的文章”。然而，文件也指出，关于同性恋者的笑话是可以接受的，前提是这些笑话不会冒犯或伤害同性恋者这一受保护群体。

从更广泛的角度来看，这份文件揭示了试图预见用户可能涉及的所有话题的艰巨任务，尤其是考虑到这些工作往往由世界上最贫困地区的人员完成，这引发了伦理上的质疑。此外，文件还提到了一些敏感话题，如不应鼓励任何“非法”行为，但由于各国法律不同，这一定义并不明确。

Surge AI对此回应称，这份文件已有数年历史，仅用于内部研究，并强调这些例子是有意挑衅的，旨在让模型更好地理解和处理危险内容。

总之，虽然大型语言模型（LLM）正逐渐成为人们生活中的重要部分，但其背后的伦理和劳动问题仍需关注。

(以上内容均由Ai生成)