Sesame 是病毒式虚拟助手 Maya 背后的初创公司,它开源了其基本 AI 模型
快速阅读: 据《雅虎美国》称,人工智能初创公司塞萨开源了驱动其流行语音助手玛雅的基础AI模型CSM-1B,该模型包含十亿参数并能生成多种声音,但缺乏严格的数据使用保障措施。
塞萨,这家支持名为玛雅的令人印象深刻的语音助手的人工智能公司,已按其近期承诺发布了驱动玛雅的基础AI模型。该模型包含十亿参数(“参数”指模型的单个组成部分),采用Apache 2.0许可,这意味着它可以商业使用且受到很少限制。根据赛萨在AI开发平台Hugging Face上的描述,该模型被称为CSM-1B,可以从文本和音频输入生成残差向量量化(RVQ)音频编码。RVQ指的是“残差向量量化”,这是一种将音频编码为称为代码的离散标记的技术。RVQ被用于许多近期的AI音频技术中,例如谷歌的SoundStream和Meta的Encodec。CSM-1B使用Meta的Llama家族中的一个模型作为其主干,并配有一个音频“解码器”组件。赛萨称,经过微调的CSM变体驱动了玛雅。“这里开源的模型是基础生成模型,”赛萨在其CSM-1B的Hugging Face和GitHub存储库中写道。“它能生成多种声音,但尚未针对特定声音进行优化……由于训练数据存在数据污染,该模型对非英语语言有一定适应能力,但可能表现不佳。”目前尚不清楚赛萨使用了哪些数据来训练CSM-1B。该公司并未披露具体细节。该模型几乎没有真正的保障措施。这是一个“靠自觉遵守”的情况。赛萨仅呼吁开发者和用户不要在未经他人同意的情况下使用模型模仿他人的声音,创建误导性内容如假新闻,或参与“有害”或“恶意”活动。我尝试了Hugging Face上的演示,克隆我的声音仅需不到一分钟。从那里开始,很容易生成我想要的各种语音,包括选举和俄罗斯宣传等敏感话题:由Oculus联合创始人布兰登·艾里贝(Brendan Iribe)共同创立的赛萨,在二月底因其接近消除恐怖谷效应的助手技术而走红。玛雅与其他助手米勒(Miles)会呼吸,说话时会有停顿,并且可以在说话时被打断,这与OpenAI的语音模式类似。赛萨从安德森·霍洛维茨基金、Spark Capital和Matrix Partners获得了数额未公开的投资。除了构建语音助手技术外,该公司还在研发全天佩戴的AI眼镜原型,这些眼镜将配备其定制模型。
这篇文章最初出现在TechCrunch上,网址为https://techcrunch.com/2025/03/13/sesame-the-startup-behind-the-viral-virtual-assistant-maya-open-sources-its-base-ai-model/
(以上内容均由Ai生成)