Vana 允许用户拥有一段基于其数据训练的 AI 模型

发布时间:2025年4月3日    来源:szf
Vana 允许用户拥有一段基于其数据训练的 AI 模型

快速阅读: 据《麻省理工学院》最新报道,Reddit与谷歌的6000万美元协议引发关注,凸显大科技公司对用户数据的控制。Vana作为去中心化平台,让用户掌控自身数据并从中获益,促进AI发展且避免垄断。

2024年2月,Reddit与谷歌达成了一项6000万美元的协议,允许这家搜索引擎巨头使用平台上的数据来训练其人工智能模型。值得注意的是,在这些讨论中完全缺席的是那些数据实际上被出售的Reddit用户。这项交易反映了现代互联网的现实:大型科技公司几乎拥有我们所有的在线数据,并有权决定如何处理这些数据。不出所料,许多平台通过出售数据来实现盈利,而如今最快的增长方式是将其出售给人工智能公司,这些公司本身也是庞大的科技企业,利用这些数据来训练越来越强大的模型。

由麻省理工学院(MIT)学生项目发展而来的去中心化平台Vana,旨在将权力归还给用户。该公司创建了一个完全由用户拥有的网络,允许个人上传他们的数据并决定如何使用这些数据。人工智能开发者可以向用户推销新模型的想法,如果用户同意贡献其数据用于训练,他们将获得相应比例的所有权。目标是让每个人都能在塑造我们社会的人工智能系统中占有一席之地,同时解锁新的数据池以推动技术进步。

“我们需要这些数据来创造更好的人工智能系统,”Vana联合创始人安娜·卡兹劳斯卡斯(Anna Kazlauskas)’19说。“我们建立了一个去中心化的系统来获取更好的数据——这些数据目前掌握在大型科技公司手中——同时仍然让用户保留最终的所有权。”

从经济学到区块链

许多高中生会在卧室墙上贴上流行明星或运动员的照片。卡兹劳斯卡斯则有一张前美国财政部长珍妮特·耶伦(Janet Yellen)的照片。卡兹劳斯卡斯来到麻省理工学院时确信自己会成为一名经济学家,但她在2015年成为了加入麻省理工比特币俱乐部的五名学生之一,这段经历使她进入了区块链和加密货币的世界。从麦格雷戈大厦的宿舍开始,她开始挖掘以太坊这种加密货币。她甚至偶尔会在校园垃圾箱里搜寻废弃的电脑芯片。

“这让我对计算机科学和网络的一切产生了兴趣,”卡兹劳斯卡斯说。“从区块链的角度来看,这涉及分布式系统以及它们如何将经济权力转移到个人身上,还有人工智能和计量经济学。”

卡兹劳斯卡斯在前媒体实验室课程“新兴风险投资”中遇到了当时正在哈佛大学就读的阿特·阿巴尔(Art Abal),两人决定研究新的方法来获取训练人工智能系统的数据。“我们的问题是:如何让更多人使用分布式的网络来为这些人工智能系统做出贡献?”卡兹劳斯卡斯回忆道。

卡兹劳斯卡斯和阿巴尔试图解决现状问题,即大多数模型都是通过抓取互联网上的公开数据进行训练的。大型科技公司也经常从其他公司购买大量数据集。创始人的方法随着时间的推移不断发展,并受到卡兹劳斯卡斯毕业后在金融区块链公司Celo工作的经验影响。但她认为麻省理工学院帮助她思考这些问题,而Emergent Ventures课程的导师拉梅什·拉斯卡尔(Ramesh Raskar)今天仍在帮助Vana思考人工智能研究问题。

“能够有这样一个开放的机会去构建、黑客攻击和探索真是太棒了,”卡兹劳斯卡斯说。“我认为麻省理工学院的这种精神非常重要。就是关于构建事物、看看什么有效,并不断迭代。”

如今,Vana利用了一项鲜为人知的法律,该法律允许大多数大型科技平台的用户直接导出自己的数据。用户可以将这些信息上传到Vana的加密数字钱包中,并根据需要分配数据来训练模型。人工智能工程师可以提出新的开源模型的想法,人们可以汇集他们的数据来帮助训练模型。在区块链世界中,这些数据池被称为数据DAO,代表去中心化自治组织。数据还可以用于创建个性化的人工智能模型和代理。

在Vana中,数据的使用方式保护了用户隐私,因为系统不会暴露可识别的信息。一旦模型创建完成,用户仍保持所有权,因此每次模型被使用时,他们都会根据数据对其训练的帮助程度按比例获得奖励。

“从开发者的角度来看,现在你可以构建这些高度个性化的健康应用程序,考虑你吃了什么、睡得怎么样、如何锻炼等,”卡兹劳斯卡斯说。“由于大型科技公司的封闭生态系统,这些应用今天是不可能实现的。”

众包、用户拥有的人工智能

去年,一名机器学习工程师提议使用Vana用户的资料来训练一个可以生成Reddit帖子的人工智能模型。超过14万名Vana用户贡献了他们的Reddit资料,其中包括帖子、评论、消息等内容。用户决定了模型可以使用的条款,并在模型创建后继续拥有所有权。

Vana已经通过来自社交媒体平台X、Oura戒指等睡眠数据以及更多来源的用户贡献数据实现了类似的计划。还有结合数据池来创建更广泛的人工智能应用的合作。

“假设用户有Spotify数据、Reddit数据和时尚数据,”卡兹劳斯卡斯解释道。“通常Spotify不会与其他类型公司合作,而且实际上对此有规定。但如果用户授予访问权限,这些跨平台数据集就可以用来创建非常强大的模型。”

Vana拥有超过100万用户和超过20个活跃的数据DAO。Vana系统上的用户已经提出了300多个额外的数据池提案,卡兹劳斯卡斯表示今年许多将投入生产。

“我认为通用人工智能模型、个性化医疗和新的消费者应用有很大的潜力,因为很难组合所有这些数据或首先获得这些数据,”卡兹劳斯卡斯说。

数据池允许用户群体完成即使是最大的科技公司今天也难以做到的事情。

“如今,大型科技公司建立了这些数据护城河,所以最好的数据集并不对任何人开放,”卡兹劳斯卡斯说。“这是一个集体行动难题,我的数据单独来看价值不大,但数万人或数百万人的数据池确实很有价值。Vana允许这些池子的建立。这是一个双赢的局面:用户因为拥有模型而受益于人工智能的发展。然后就不会出现一家公司掌控无所不能的人工智能模型的情况。你会得到更好的技术,但所有人都能从中受益。”

(以上内容均由Ai生成)

你可能还想读

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

快速阅读: 美国能源部17个国家实验室构成顶尖科研体系,在基础科学、能源安全、气候变化等领域发挥关键作用。拥有全球领先的超算资源及顶尖人才,年经费约220亿美元。随着“创世纪计划”启动,实验室将形成协同网络,推动美国在清洁能源、量子计算等前 […]

发布时间:2025年12月8日
谷歌Gemini 3 Pro发布

谷歌Gemini 3 Pro发布

快速阅读: 谷歌发布新一代推理模型Gemini 3 Pro,显著提升数学、编程和视觉理解能力。一经发布,Gemini 3 Pro几乎横扫各大评测榜单,在LMArena大模型竞技场中以1501的Elo得分高居榜首。在MathArena数学竞赛 […]

发布时间:2025年11月19日
独具创新,直击痛点:深度解析华为十大最新方案

独具创新,直击痛点:深度解析华为十大最新方案

快速阅读: 第三个方案,是华为的U6GHzAAU天线。综合来看,华为的U6GAAU,真正实现了容量覆盖双优,助力全球U6G商用。LampSiteX,是LampSite系列的最新型号。第五个方案,是华为有源天线产品——EasyAAU。Easy […]

发布时间:2025年11月13日
Palantir估值承压仍领跑AI赛道

Palantir估值承压仍领跑AI赛道

快速阅读: 近期,美国AI概念股整体承压,Palantir与英伟达遭遇做空传闻,引发市场短暂震荡。然而,在宏观调整与估值质疑中,Palantir仍凭借强劲业绩与差异化AI布局维持长期增长势头。分析人士认为,该公司正处于由“政府数据支撑”向“ […]

发布时间:2025年11月12日
Palantir与Snowflakes深化AI合作

Palantir与Snowflakes深化AI合作

快速阅读: Snowflake 与 Palantir 宣布建立战略合作,整合双方的数据与AI能力,使企业能够在统一的数据基础上直接调用 Palantir 的AI分析与智能应用工具,加速企业级AI落地。 2025年10月,Snowflake […]

发布时间:2025年11月10日
Palantir与迪拜控股共建AI公司

Palantir与迪拜控股共建AI公司

快速阅读: Dubai Holding 与 Palantir 宣布成立合资公司 Aither,致力于为中东地区政府与企业提供人工智能转型解决方案。该合作标志着 Palantir 在中东技术布局的进一步深化,也为当地公共服务与产业数字化提供新 […]

发布时间:2025年11月10日
Palantir携手Lumen共建企业AI平台

Palantir携手Lumen共建企业AI平台

快速阅读: 2025年10月,Palantir Technologies与Lumen Technologies宣布达成战略合作,联合打造面向企业级应用的人工智能服务平台。双方将以Palantir的Foundry与AIP平台为核心,推动通信与 […]

发布时间:2025年11月7日
Palantir携手Hadean拓展英国国防部AI战场模拟平台

Palantir携手Hadean拓展英国国防部AI战场模拟平台

快速阅读: 2025年10月,数据智能公司 Palantir Technologies 宣布与英国分布式计算企业 Hadean 达成战略合作,双方将共同为英国国防部(UK Ministry of Defence, UK MoD)扩展基于人工 […]

发布时间:2025年11月7日