Mozilla 与 EleutherAI 推出工具包,帮助 AI 构建者创建开放数据集

发布时间:2025年4月26日    来源:szf
Mozilla 与 EleutherAI 推出工具包,帮助 AI 构建者创建开放数据集

快速阅读: 据《Mozilla (博客)》最新报道,Mozilla与EleutherAI推出两工具包,助开发者创建开源道德数据集。其一利用开源Whisper模型转录音频,另一将文档转Markdown。此举推动AI生态更公平透明。

如何利用注重隐私的工具将音频文件转录为文本的方法指南,以及如何将不同文档转换为单一格式的简易教程。

大多数流行的AI模型依赖于从网络上爬取的数据,通常未经版权所有者的明确许可。这种模糊性引发了诉讼,并推动了数据集实践中保密倾向的趋势,阻碍了透明度、问责制,并限制了仅财力雄厚者参与创新的机会。对此,一个不断壮大的开发者群体正致力于证明构建更优替代方案的可能性。

作为为期一年的围绕开放和公开授权数据集合作的一部分,莫兹拉(Mozilla)和艾勒瑟AI(EleutherAI)推出了两个新的工具包,以协助开发者构建符合道德的数据集,这是迈向更开放和道德的AI生态系统的重要一步。这些工具包协助开发者开始创建开放数据集。代码和示例将在莫兹拉AI蓝图中心发布,这是一个帮助开发者使用开箱即用工作流程进行开源AI原型设计的平台。

**工具包1:借助开源Whisper模型转录音频文件**

该蓝图引导开发者借助Speaches(类似OpenAI Whisper API的自托管服务器)使用开源Whisper模型转录音频。专为本地使用设计,这个注重隐私的设置使其成为处理敏感或私密音频数据的理想工具。受现实世界应用场景的启发,该工具包提供了易于操作的设置方法,用户可以选择使用Docker或命令行界面。

**工具包2:将非结构化文档转换为Markdown格式**

此工具包协助开发者利用具备强大光学字符识别及图像处理功能的命令行工具Docling,将多种文档格式(如PDF、DOCX、HTML等)转换为Markdown。该工具包着重于易用性与多功能性,并具备批量处理功能,非常适合构建用于下游应用的开放文本数据集。

莫兹拉和艾勒瑟AI的合作包括一次AI数据集会议,此次会议汇聚了来自知名开源AI初创公司、非营利AI实验室和公民社会组织的30位领先学者和从业者,共同探讨开放大型语言模型(LLM)社区新焦点的新兴实践,最终发布了研究论文《面向LLM训练的开放数据集最佳实践》。这两个新工具包是这一合作的最后里程碑,也是帮助开发者实施之前分享的最佳实践的资源。

“随着AI开发以惊人的速度推进,我们必须问自己‘我们如何负责任地策划和治理数据,使AI生态系统变得更加公平和透明’”,莫兹拉基金会高级AI战略顾问阿雅·B·德伊尔(Ayah Bdeir)表示,“开源AI的成功有赖于社区共享专业知识,我们与艾勒瑟AI的合作是我们支持在开源AI前线迭代和实验的令人惊叹的建设者们的承诺的一部分。”

目前,诉讼威胁常常被引用为减少数据集透明度的原因,这阻碍了透明度和创新。构建开放访问数据是解决之道。构建一个负责任策划、公开授权的数据集的未来需要法律、技术和政策领域的协作,以及对标准和数字化的投资。简而言之,开放访问数据可以解决许多AI挑战,但创建它很困难。艾勒瑟AI与莫兹拉的工具包是简化这一过程的关键一步。

“开放性和透明性是AI的未来。通过将实用工具交给开发者手中,我们正在帮助构建高质量、公开授权的数据集,这些数据集构成了更值得信赖、透明和可解释的AI系统的基石,”艾勒瑟AI执行董事斯特拉·比德曼(Stella Biderman)指出。

(以上内容均由Ai生成)

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日