Vana 允许用户拥有一段基于其数据训练的 AI 模型

快速阅读: 据《麻省理工学院》最新报道，Reddit与谷歌的6000万美元协议引发关注，凸显大科技公司对用户数据的控制。Vana作为去中心化平台，让用户掌控自身数据并从中获益，促进AI发展且避免垄断。

2024年2月，Reddit与谷歌达成了一项6000万美元的协议，允许这家搜索引擎巨头使用平台上的数据来训练其人工智能模型。值得注意的是，在这些讨论中完全缺席的是那些数据实际上被出售的Reddit用户。这项交易反映了现代互联网的现实：大型科技公司几乎拥有我们所有的在线数据，并有权决定如何处理这些数据。不出所料，许多平台通过出售数据来实现盈利，而如今最快的增长方式是将其出售给人工智能公司，这些公司本身也是庞大的科技企业，利用这些数据来训练越来越强大的模型。

由麻省理工学院（MIT）学生项目发展而来的去中心化平台Vana，旨在将权力归还给用户。该公司创建了一个完全由用户拥有的网络，允许个人上传他们的数据并决定如何使用这些数据。人工智能开发者可以向用户推销新模型的想法，如果用户同意贡献其数据用于训练，他们将获得相应比例的所有权。目标是让每个人都能在塑造我们社会的人工智能系统中占有一席之地，同时解锁新的数据池以推动技术进步。

“我们需要这些数据来创造更好的人工智能系统，”Vana联合创始人安娜·卡兹劳斯卡斯（Anna Kazlauskas）’19说。“我们建立了一个去中心化的系统来获取更好的数据——这些数据目前掌握在大型科技公司手中——同时仍然让用户保留最终的所有权。”

从经济学到区块链

许多高中生会在卧室墙上贴上流行明星或运动员的照片。卡兹劳斯卡斯则有一张前美国财政部长珍妮特·耶伦（Janet Yellen）的照片。卡兹劳斯卡斯来到麻省理工学院时确信自己会成为一名经济学家，但她在2015年成为了加入麻省理工比特币俱乐部的五名学生之一，这段经历使她进入了区块链和加密货币的世界。从麦格雷戈大厦的宿舍开始，她开始挖掘以太坊这种加密货币。她甚至偶尔会在校园垃圾箱里搜寻废弃的电脑芯片。

“这让我对计算机科学和网络的一切产生了兴趣，”卡兹劳斯卡斯说。“从区块链的角度来看，这涉及分布式系统以及它们如何将经济权力转移到个人身上，还有人工智能和计量经济学。”

卡兹劳斯卡斯在前媒体实验室课程“新兴风险投资”中遇到了当时正在哈佛大学就读的阿特·阿巴尔（Art Abal），两人决定研究新的方法来获取训练人工智能系统的数据。“我们的问题是：如何让更多人使用分布式的网络来为这些人工智能系统做出贡献？”卡兹劳斯卡斯回忆道。

卡兹劳斯卡斯和阿巴尔试图解决现状问题，即大多数模型都是通过抓取互联网上的公开数据进行训练的。大型科技公司也经常从其他公司购买大量数据集。创始人的方法随着时间的推移不断发展，并受到卡兹劳斯卡斯毕业后在金融区块链公司Celo工作的经验影响。但她认为麻省理工学院帮助她思考这些问题，而Emergent Ventures课程的导师拉梅什·拉斯卡尔（Ramesh Raskar）今天仍在帮助Vana思考人工智能研究问题。

“能够有这样一个开放的机会去构建、黑客攻击和探索真是太棒了，”卡兹劳斯卡斯说。“我认为麻省理工学院的这种精神非常重要。就是关于构建事物、看看什么有效，并不断迭代。”

如今，Vana利用了一项鲜为人知的法律，该法律允许大多数大型科技平台的用户直接导出自己的数据。用户可以将这些信息上传到Vana的加密数字钱包中，并根据需要分配数据来训练模型。人工智能工程师可以提出新的开源模型的想法，人们可以汇集他们的数据来帮助训练模型。在区块链世界中，这些数据池被称为数据DAO，代表去中心化自治组织。数据还可以用于创建个性化的人工智能模型和代理。

在Vana中，数据的使用方式保护了用户隐私，因为系统不会暴露可识别的信息。一旦模型创建完成，用户仍保持所有权，因此每次模型被使用时，他们都会根据数据对其训练的帮助程度按比例获得奖励。

“从开发者的角度来看，现在你可以构建这些高度个性化的健康应用程序，考虑你吃了什么、睡得怎么样、如何锻炼等，”卡兹劳斯卡斯说。“由于大型科技公司的封闭生态系统，这些应用今天是不可能实现的。”

众包、用户拥有的人工智能

去年，一名机器学习工程师提议使用Vana用户的资料来训练一个可以生成Reddit帖子的人工智能模型。超过14万名Vana用户贡献了他们的Reddit资料，其中包括帖子、评论、消息等内容。用户决定了模型可以使用的条款，并在模型创建后继续拥有所有权。

Vana已经通过来自社交媒体平台X、Oura戒指等睡眠数据以及更多来源的用户贡献数据实现了类似的计划。还有结合数据池来创建更广泛的人工智能应用的合作。

“假设用户有Spotify数据、Reddit数据和时尚数据，”卡兹劳斯卡斯解释道。“通常Spotify不会与其他类型公司合作，而且实际上对此有规定。但如果用户授予访问权限，这些跨平台数据集就可以用来创建非常强大的模型。”

Vana拥有超过100万用户和超过20个活跃的数据DAO。Vana系统上的用户已经提出了300多个额外的数据池提案，卡兹劳斯卡斯表示今年许多将投入生产。

“我认为通用人工智能模型、个性化医疗和新的消费者应用有很大的潜力，因为很难组合所有这些数据或首先获得这些数据，”卡兹劳斯卡斯说。

数据池允许用户群体完成即使是最大的科技公司今天也难以做到的事情。

“如今，大型科技公司建立了这些数据护城河，所以最好的数据集并不对任何人开放，”卡兹劳斯卡斯说。“这是一个集体行动难题，我的数据单独来看价值不大，但数万人或数百万人的数据池确实很有价值。Vana允许这些池子的建立。这是一个双赢的局面：用户因为拥有模型而受益于人工智能的发展。然后就不会出现一家公司掌控无所不能的人工智能模型的情况。你会得到更好的技术，但所有人都能从中受益。”

(以上内容均由Ai生成)