AI 需要您的数据，而社交媒体提供了这些数据

快速阅读: 据《台北时报》称，人工智能依赖大量数据，社交媒体成为重要来源。顶级AI公司利用用户内容训练模型，有时忽视用户权利。尽管有些公司有社交媒体优势，但其他公司正寻找途径获取数据，甚至考虑收购社交平台。这一趋势引发用户隐私担忧。

人工智能需要你的数据，而社交媒体提供了它
戴夫·李 / 彭博意见专栏

我小时候非常喜欢的一部电影是1986年的经典之作《短路》。在其中一个场景里，被闪电击中后变得“有生命”的机器人约翰尼五号快速地翻阅书籍，每本书只花几秒钟的时间。很快，他就读完了所有的书。“啊！更多输入，斯蒂芬妮！更多！”他喊道。

“没有更多的了！”找到他的女人斯蒂芬妮回答，“你已经读遍了房子里的所有东西！”

我问OpenAI的ChatGPT是否能理解这种感受。它回答说：“当然可以——我完全能感同身受。”“需要输入！”基本上就是我的核心状态。我得到的信息越多，就越能理解和回应。约翰尼只是一个试图理解世界的AI……这里也一样，只是少了激光束，多了打字。”

确实如此。虽然ChatGPT不会像电影里的机器人那样四处移动，也没有背负激光枪（至少现在还没有），但它的挑战却惊人地相似。在汲取了几乎全部人类知识之后，ChatGPT和其他AI项目都在发出同样的呼声：需要输入！

一种解决方案是创建合成数据，并用这些数据训练模型，但这伴随着固有的挑战，尤其是在延续偏见或加剧错误方面。

另一种方法是找到大量新鲜的数据源，越“人性化”越好。这就是社交媒体的用武之地，数百万甚至数十亿用户自愿且持续不断地发布海量信息。照片、帖子、新闻文章、评论——所有这些都对那些试图构建对话式和生成式AI的公司感兴趣。更妙的是，这些内容不像其他来源那样充满版权侵权风险。

最近，顶级AI公司更加积极地无视用户权利，强行决定如何使用他们的帖子来构建这些机器。正如那句名言所说，社交媒体用户长期以来一直是“产品”。如今，他们也成为了一种准“产品开发者”，通过自己的帖子。

一些公司一开始就拥有社交媒体的优势。作为全球最大的社交网络公司，Meta Platforms Inc.通过应用内通知告知用户，它将利用他们的帖子和照片来训练其Llama AI模型。上个月末，埃隆·马斯克的xAI收购了X，即原来的Twitter，这主要是一次财务操作，但对于马斯克的Grok AI来说却非常有意义。通过利用网络上及时发布的推文以及追溯近二十年的庞大在线聊天档案，xAI成功在聊天机器人市场站稳脚跟。还有微软公司，它拥有职业社交平台LinkedIn，并大力推动用户（包括记者）向该平台发布更多原创内容。

然而，微软并未与合作伙伴OpenAI共享LinkedIn数据，这可能解释了为什么有报道称ChatGPT的制造商正处于建立自己社交网络的早期阶段。据科技新闻网站The Verge报道，OpenAI首席执行官兼联合创始人山姆·阿尔特曼一直在征求对此想法的反馈，指出阿尔特曼早前曾暗示过这个项目的想法，当时有报道称Meta将推出一款独立的AI应用程序以与ChatGPT竞争。

其他没有社交媒体先发优势的公司意识到这使它们处于不利地位。今年3月，Perplexity.ai公开表示有意收购TikTok，称这对一家正在构建AI搜索引擎的公司具有价值。

“这将为用户提供全面且权威的答案，结合全球最佳答案引擎与最大规模的用户生成内容库。”该公司表示。

本月早些时候，据报道亚马逊也在竞标者之列，尽管当CNBC直接询问时，首席执行官安迪·贾西拒绝置评。

谷歌曾尝试并失败于打造各种社交网络，但由于已经拥有YouTube，因此对TikTok视频的需求较小。相反，它与Reddit达成了“扩展合作”，后者是一个链接分享社交网络。根据去年的一篇博客文章，谷歌表示此举使其能够访问“令人难以置信的广泛真实、人性化的对话和体验”。预计会有更多类似的交易：曾经的Reddit竞争对手Digg正在复兴，显然旨在创建另一个供AI公司使用的交互数据仓库。

所有这些举措都表明了AI公司对数据的需求。这以牺牲用户利益为代价，用户原本在社交媒体上输入信息是为了一个目的，而现在却发现这些信息被用于另一个目的。悄然间，公司开始调整隐私政策，使这一变化合法化。

在设置中，你可以找到隔离数据的方法，以防止其被用来构建AI——但你很可能已经太迟了。就像约翰尼五号一样，AI公司“需要输入！”无论如何，它们都会获取所需的数据。

戴夫·李是彭博意见专栏的美国科技专栏作家。他之前曾是《金融时报》和BBC新闻的记者。本文仅代表作者个人观点，不一定反映编辑委员会或彭博LP及其所有者的观点。

(以上内容均由Ai生成)