我们应该有多担心 AI 聊天机器人使用我们的数据？

快速阅读: 《TheJournal.ie》消息，深寻公司因大语言模型使用公民数据收到爱尔兰数据保护委员会警告。公司需通过合法性、合理性等四重测试，以确保符合GDPR。都柏林大学的专家认为，许多聊天机器人可能因未遵守GDPR而违法。数据保护法强调透明度，开发者应寻求用户同意而非忽视隐私。

深寻公司，一家中国公司，上周收到了来自爱尔兰数据保护委员会（DPC）的警告信，表达了对公司使用公民个人数据的大语言模型的担忧。这不是DPC第一次面对这类复杂问题，他们在努力规范快速发展的技术。最近，爱尔兰的数据监管机构已向欧盟请求法律建议，以解决这一问题。爱尔兰的请求使人工智能的未来发展及公司和开发者如何训练他们的大语言模型和机器人变得充满不确定性。那么，这些机器人有多大可能已经使用了我们的数据？监管部门是否会浇冷水？意见是怎么说的？

去年年底，爱尔兰请求欧洲数据保护局提供法律援助，此前Meta按照DPC的要求暂停了其收集Facebook用户数据的行为。这个问题归结为是否公司在开发人工智能技术时，在未经同意的情况下使用了公民的私人数据。如果发现公司确实如此，其系统可能会被认定为非法并关闭，公司也可能面临巨额罚款。

我们询问了深寻公司对此的看法。在欧洲数据保护局发布的法律意见后，人工智能公司必须通过四项测试：公司必须证明：数据是在《通用数据保护条例》（GDPR）规则下合法获得的。有合理的理由使用个人数据。使用数据是必要的。开发者没有为了商业利益而违反法律。

可能使用什么类型的数据？根据贝尔法斯特女王大学电子、电气工程和计算机科学学院高级讲师德帕克·帕德马纳布汉的说法，公司使用的个人数据范围可以从社交媒体帖子到医院文件。公司可以通过一种称为“网络抓取”的方法收集这些数据，当机器搜索互联网以回答用户输入的问题时。理论上，这已经在欧盟的GDPR法律下非法，但仅限于那些“无差别”进行网络抓取的情况。公司可以辩称，当用户请求特定信息并指示机器人只寻找该数据时，他们的机器并不违反数据法律。

帕德马纳布汉表示，这种信息收集相当复杂，并随着时间变化。帕德马纳布汉表示，这项技术在过去十年间变得更加复杂。虽然像预测文本这样的系统会使用数千份文档来找出最有可能的下一个单词，但大型语言模型则使用信息来监控更隐晦的东西，如趋势、俚语和话题。开发者可以利用大量个人数据来训练他们的机器识别这些模式和趋势，因此一些个人信息很可能会包含在他们的训练数据集中。

公民应该担心吗？根据帕德马纳布汉的说法，实际上不需要担心。“人工智能社区公认的是，如果你使用个人数据来构建你的模型，你应该以一种方式开发它，使得用户无法察觉他们的数据已被使用，”他说。帕德马纳布汉说，专家通常避免在人工智能系统中使用个人数据，除非是专门设计的应用程序。

我的数据有多大可能已经被使用？都柏林大学（UCD）苏塞克斯法学院副教授TJ麦金泰尔表示，根据最近欧盟法律意见的标准，许多人工智能聊天机器人系统在未来很可能被发现违反数据保护法。这是因为开发者很可能在欧盟测试的第一步上“失败”，即遵守GDPR。相关阅读：法国专家表示，世界需要全球法规来管理人工智能的传播。观点：人工智能正在改变现实，但它不一定会导致灾难性后果。

麦金泰尔，UCD的一位领先数据保护学者和FP Logue LLP的执业数据保护律师，表示许多开发者可能在机器人开发阶段完成了“无差别网络抓取”。麦金泰尔（2017年图片）认为有足够的判例挑战聊天机器人的数据使用。律师不同意帕德马纳布汉的观点，认为人工智能开发者行为良好，争论的焦点不是计算机系统如何隐藏个人数据，而是信息最初是否未经所有者同意就被使用。他说，“视而不见，置之脑后”的做法“在法律上是完全错误的”。“谁能信任一个如此轻视个人的服务？数据保护法的基本原则之一是透明度，试图隐瞒个人数据使用的开发者应当预料到更高的罚款，”他说。麦金泰尔补充说，除非开发者能证明他们采取了法律意见中概述的缓解措施，比如首先寻求同意，而不是将商业利益置于公民权利之上，否则开发者也很可能在第四步上失败。

那么，人工智能聊天机器人与监管机构之间是否会发生冲突？目前还不清楚。麦金泰尔表示，关于个人数据和网络抓取的案例法很多，“尽管是在其他背景下”。他说，是否人工智能聊天机器人违反数据保护法的决定将取决于具体情况。然而，他警告说，公司很可能因网络抓取法律而被认定违规。但是，麦金泰尔表示，欧盟的意见存在一个重要空白，因为它没有明确说明任何类型的网络抓取是否符合GDPR相关的法律——如果我们假设无差别抓取本身就是违法行为的话。麦金泰尔指出，荷兰数据保护局最近发布的指南表明，所有网络抓取必须严格限制和有针对性——暗示需要确立法律先例。

(以上内容均由Ai生成)