Mozilla 与 EleutherAI 推出工具包，帮助 AI 构建者创建开放数据集

发布时间：2025年4月26日来源：szf

快速阅读: 据《Mozilla （博客）》最新报道，Mozilla与EleutherAI推出两工具包，助开发者创建开源道德数据集。其一利用开源Whisper模型转录音频，另一将文档转Markdown。此举推动AI生态更公平透明。

如何利用注重隐私的工具将音频文件转录为文本的方法指南，以及如何将不同文档转换为单一格式的简易教程。

作为为期一年的围绕开放和公开授权数据集合作的一部分，莫兹拉（Mozilla）和艾勒瑟AI（EleutherAI）推出了两个新的工具包，以协助开发者构建符合道德的数据集，这是迈向更开放和道德的AI生态系统的重要一步。这些工具包协助开发者开始创建开放数据集。代码和示例将在莫兹拉AI蓝图中心发布，这是一个帮助开发者使用开箱即用工作流程进行开源AI原型设计的平台。

**工具包1：借助开源Whisper模型转录音频文件**

该蓝图引导开发者借助Speaches（类似OpenAI Whisper API的自托管服务器）使用开源Whisper模型转录音频。专为本地使用设计，这个注重隐私的设置使其成为处理敏感或私密音频数据的理想工具。受现实世界应用场景的启发，该工具包提供了易于操作的设置方法，用户可以选择使用Docker或命令行界面。

**工具包2：将非结构化文档转换为Markdown格式**

此工具包协助开发者利用具备强大光学字符识别及图像处理功能的命令行工具Docling，将多种文档格式（如PDF、DOCX、HTML等）转换为Markdown。该工具包着重于易用性与多功能性，并具备批量处理功能，非常适合构建用于下游应用的开放文本数据集。

莫兹拉和艾勒瑟AI的合作包括一次AI数据集会议，此次会议汇聚了来自知名开源AI初创公司、非营利AI实验室和公民社会组织的30位领先学者和从业者，共同探讨开放大型语言模型（LLM）社区新焦点的新兴实践，最终发布了研究论文《面向LLM训练的开放数据集最佳实践》。这两个新工具包是这一合作的最后里程碑，也是帮助开发者实施之前分享的最佳实践的资源。

“随着AI开发以惊人的速度推进，我们必须问自己‘我们如何负责任地策划和治理数据，使AI生态系统变得更加公平和透明’”，莫兹拉基金会高级AI战略顾问阿雅·B·德伊尔（Ayah Bdeir）表示，“开源AI的成功有赖于社区共享专业知识，我们与艾勒瑟AI的合作是我们支持在开源AI前线迭代和实验的令人惊叹的建设者们的承诺的一部分。”

目前，诉讼威胁常常被引用为减少数据集透明度的原因，这阻碍了透明度和创新。构建开放访问数据是解决之道。构建一个负责任策划、公开授权的数据集的未来需要法律、技术和政策领域的协作，以及对标准和数字化的投资。简而言之，开放访问数据可以解决许多AI挑战，但创建它很困难。艾勒瑟AI与莫兹拉的工具包是简化这一过程的关键一步。

“开放性和透明性是AI的未来。通过将实用工具交给开发者手中，我们正在帮助构建高质量、公开授权的数据集，这些数据集构成了更值得信赖、透明和可解释的AI系统的基石，”艾勒瑟AI执行董事斯特拉·比德曼（Stella Biderman）指出。

(以上内容均由Ai生成)