病毒式虚拟助手 Maya 背后的初创公司 Sesame 发布了其基础 AI 模型

发布时间：2025年3月14日来源：szf

快速阅读: 据《TechCrunch 技术紧缩》最新报道，一家名为芝麻的人工智能公司发布支持梅亚的逼真语音助手模型CSM-1B，遵循宽松的开源许可，但缺乏安全保障。模型能生成多种声音，但对非英语表现欠佳。公司未披露训练数据来源。

一家名为芝麻的人工智能公司已发布了一款为梅亚提供支持的基础模型，这是一款极为逼真的语音助手。该模型包含10亿个参数（“参数”指模型的单个组成部分），并遵循Apache 2.0许可协议，这意味着它可以在商业用途中自由使用，限制极少。根据芝麻在Hugging Face人工智能开发平台上的介绍，这款模型被称为CSM-1B，能够从文本和音频输入中生成残差向量量化音频编码。残差向量量化（RVQ）是一种将音频编码为称为代码的离散标记的技术。这项技术已被应用于谷歌的SoundStream和Meta的Encodec等多种近期人工智能音频技术中。CSM-1B以Meta的Llama家族中的一个模型为基础，并配备了一个音频“解码器”组件。芝麻表示，经过微调的CSM变体驱动了梅亚。“这是一个开源的基础生成模型，”芝麻在其CSM-1B的Hugging Face和GitHub存储库中写道，“它可以生成多种声音，但并未针对任何特定声音进行优化……由于训练数据可能存在数据污染，该模型对非英语语言有一定的适应能力，但表现可能不佳。”目前尚不清楚芝麻使用了哪些数据来训练CSM-1B。该公司没有对此作出说明。

值得注意的是，该模型几乎没有设置任何实质性的安全保障措施。芝麻依赖于荣誉制度，并呼吁开发者和用户不要未经他人同意模仿其声音，避免制作虚假新闻等误导性内容，或从事“有害”或“恶意”行为。由Oculus联合创始人布兰登·艾里贝共同创立的芝麻，因其接近突破恐怖谷领域的助理技术，在今年二月底引起了广泛关注。梅亚和芝麻的另一款助理迈尔斯不仅会呼吸，而且说话时常有停顿，并且能够在讲话时被打断，这一点与OpenAI的语音模式类似。芝麻从安德森·霍洛维茨、火花资本以及矩阵伙伴处获得了金额未披露的投资。除了构建语音助理技术外，该公司还表示正在研发全天可佩戴的人工智能眼镜。

我在Hugging Face上尝试了演示版本，克隆我的声音仅需不到一分钟。随后，我可以轻松生成各种内容，包括涉及选举和俄罗斯宣传等敏感话题。消费者报告近期警告称，市面上许多流行的基于人工智能的语音克隆工具缺乏“实质性”的安全保障措施，以防止欺诈或滥用。

(以上内容均由Ai生成)