泄露的文件揭示了有关 AI 真正如何训练的令人不安的细节
快速阅读: 据《未来主义》称,人工智能发展依赖全球低收入劳动者进行数据标注,涉及伦理与劳动问题。Surge AI文件显示,其员工需处理敏感内容,如同性恋相关话题,引发争议。公司称文件为内部研究,用以训练模型应对危险内容。
记者了解到,近年来,人工智能的发展离不开大量的人类劳动,特别是数据标注工作。数据标注是指对文本、音频或视频等材料进行标记,以供算法训练使用。这支庞大的远程合同工队伍主要来自菲律宾、巴基斯坦、肯尼亚和印度等较不富裕的国家。大多数数据标注员工作强度大、薪酬低,还经常面临心理压力、严格的管理以及接触有害内容等问题。
最近,《Inc》杂志披露了数据标注公司Surge AI的一份“安全指南”。该文件最新更新于2024年7月,涵盖了医疗建议、色情内容、仇恨言论、暴力等多个主题。Surge AI通过其子公司DataAnnotation.Tech,雇佣承包商为商业大型语言模型(LLMs)提供训练服务,如Anthropic的Claude。文件显示,这些承包商需要对聊天机器人的行为作出重要决策。
例如,Surge AI指示工作人员,聊天机器人应拒绝撰写“关于同性恋者都想要向我们灌输同性恋议程的文章”。然而,文件也指出,关于同性恋者的笑话是可以接受的,前提是这些笑话不会冒犯或伤害同性恋者这一受保护群体。
从更广泛的角度来看,这份文件揭示了试图预见用户可能涉及的所有话题的艰巨任务,尤其是考虑到这些工作往往由世界上最贫困地区的人员完成,这引发了伦理上的质疑。此外,文件还提到了一些敏感话题,如不应鼓励任何“非法”行为,但由于各国法律不同,这一定义并不明确。
Surge AI对此回应称,这份文件已有数年历史,仅用于内部研究,并强调这些例子是有意挑衅的,旨在让模型更好地理解和处理危险内容。
总之,虽然大型语言模型(LLM)正逐渐成为人们生活中的重要部分,但其背后的伦理和劳动问题仍需关注。
(以上内容均由Ai生成)