开源 AI 辩论：为什么选择性透明度会带来严重风险

快速阅读: 据《VentureBeat 公司》最新报道，文章探讨了人工智能开源的重要性，强调真正的开源协作能加速创新并确保技术的无偏见与道德性。尽管开源有益，但部分公司仅公开部分模型参数，这可能导致公众不信任。作者呼吁科技公司增强透明度，以建立公众信任，促进安全合规的AI发展。

订阅我们的每日简报和每周通讯，获取行业领先的人工智能最新动态和独家内容。点击了解更多信息随着科技巨头宣布其人工智能发布开源——甚至将其纳入公司名称中，“开源”这一曾经的内部术语已进入主流文化。在一家公司的失误可能使公众对人工智能的接受度倒退十年以上的关键时刻，开放性和透明性的概念被滥用甚至有时被虚假宣传以建立信任。与此同时，随着新一届白宫政府采取更宽松的技术监管方式，对立局面已经形成——创新与监管之间的较量，预测如果“错误”的一方获胜将带来严重后果。然而，通过其他技术变革浪潮测试和证明的第三条道路存在。基于开放性和透明性的原则，真正的开源协作加速了创新进程，同时赋予行业开发出无偏见、合乎道德且有益于社会的技术的能力。

理解真正开源协作的力量

简单来说，开源软件具有自由可用的源代码，可以查看、修改、解构、采用和共享用于商业和非商业目的——历史上，它极大地推动了创新。例如，开源产品Linux、Apache、MySQL和PHP奠定了我们所知的互联网基础。现在，通过民主化访问人工智能模型、数据、参数和开源人工智能工具，社区可以再次释放更快的创新，而不是不断重复制造轮子——这也是为什么最近IBM对2400名IT决策者的一项研究显示，对使用开源人工智能工具来推动投资回报率的兴趣正在增长。

虽然更快的开发和创新在确定人工智能投资回报率时名列前茅，但研究还证实，拥抱开源解决方案可能与更大的财务可行性相关联。与其短期利益仅利于少数企业，开源人工智能邀请打造更多样化和定制化的应用程序，这些应用程序可能没有资源使用专有模型。也许同样重要的是，开源的透明性允许对人工智能系统的行为和伦理进行独立审查和修正问题——当我们利用大众现有的兴趣和动力时，他们将会发现并修正问题，就像他们在LAION 5B数据集事件中所做的那样。在这种情况下，群众揪出了超过1000个包含经过验证的儿童色情材料的URL，这些材料隐藏在为生成式人工智能模型（如Stable Diffusion和Midjourney）提供燃料的数据中——这些模型根据文本和图像提示生成图像，并在许多在线视频生成工具和应用中起基础作用。

尽管这一发现引起了轩然大波，但如果该数据集是封闭的，就像OpenAI的Sora或Google的Gemini一样，后果可能会更糟。很难想象如果人工智能最令人兴奋的视频创作工具开始产生令人不安的内容，会引发怎样的反弹。值得庆幸的是，LAION 5B数据集的开放性质赋予了社区动力，促使其开发者与行业监督机构合作解决问题并发布RE-LAION 5B——这体现了为什么真正的开源人工智能的透明性不仅造福用户，也造福致力于与消费者和公众建立信任的行业和创作者。

人工智能中的开源危险

虽然源代码本身相对容易分享，但人工智能系统比软件复杂得多。它们依赖于系统源代码、模型参数、数据集、超参数、训练源代码、随机数生成和软件框架——所有这些组件必须协同工作才能使人工智能系统正常运行。在人工智能安全问题的担忧中，声明一个发布是开源或完全开源已成为常态。然而，要做到这一点准确，创新者必须分享所有拼图碎片，以便其他玩家能够充分理解、分析和评估人工智能系统的特性，最终复制、修改和扩展其能力。

例如，Meta吹嘘Llama 3.1 405B为“首个前沿级开源人工智能模型”，但仅公开分享了系统的预训练参数（权重）和一些软件。虽然这允许用户随意下载和使用模型，但关键组件如源代码和数据集仍然封闭——在Meta宣布将把人工智能机器人档案注入网络的同时停止对内容准确性进行审核的情况下，这种情况变得更加令人担忧。

公平地说，所分享的内容无疑有助于社区。开放权重模型提供了灵活性、可访问性、创新性和一定程度的透明性。DeepSeek决定开源其权重、发布R1的技术报告并免费使用，这使人工智能社区能够研究和验证其方法论并融入他们的工作中。然而，当没有人能够实际查看、实验和理解构成该系统每个部分时，称一个人工智能系统为开源是误导性的。这种误导不仅仅损害公众信任。它不仅没有让社区中的每个人都能够合作、构建和改进像Llama X这样的模型，反而迫使使用这类人工智能系统的创新者盲目信赖未公开的部分。

迎接我们的挑战

随着自动驾驶汽车驶入主要城市街道并在手术室协助外科医生，我们只是让这项技术接管的开端。其潜力巨大，但也伴随着巨大的错误风险——这就是为什么我们需要新的衡量标准来定义在人工智能世界中何为可信。即使Anka Reuel及其斯坦福大学同事最近尝试设立一个新的框架来评估模型表现的基准，例如，行业和公众依赖的评估机制还不足以满足需求。基准测试未能顾及到学习系统的核心数据集不断变化的事实，以及合适的评估指标因应用场景而不同。该领域仍然缺乏精确的数学表述来描述当代人工智能的能力和局限性。

通过分享整个人工智能系统以实现开放性和透明性，而不是依赖不足的评估和表面功夫，我们可以促进更大的合作并培育以安全和合乎道德的方式开发的人工智能创新。虽然真正的开源人工智能提供了一个实现这些目标的经验证框架，但行业内缺乏透明度令人担忧。如果没有大胆的领导和科技公司的合作来自我治理，这个信息差距可能会损害公众的信任和接受度。

拥抱开放性、透明性和开源不仅是一个强大的商业模式——它也是选择一个惠及每个人的AI未来，而不是仅仅少数人。通过分享整个人工智能系统以实现开放性和透明性，而不是依赖不足的评估和表面功夫，我们可以促进更大的合作并培育以安全和合乎道德的方式开发的人工智能创新。

Jason Corso是密歇根大学教授兼Voxel51联合创始人。

每日商业用例洞察

如果您想给老板留下深刻印象，VB Daily可以帮到您。我们将为您揭示公司如何运用生成式人工智能，从监管变化到实际部署，让您分享洞见以最大化投资回报。立即订阅阅读我们的隐私政策感谢订阅。查看更多VB新闻通讯出现错误。

(以上内容均由Ai生成)