Meta发布SAM Audio支持点击分离声音

发布时间:2025年12月18日    来源:szf
Meta发布SAM Audio支持点击分离声音

快速阅读: 据Meta消息,该公司近日推出全球首个统一多模态音频分离模型SAM Audio,支持通过文本、视觉或时间提示精准提取目标声音。其自研感知编码器PE-AV实现视听深度融合,并同步开源评测基准与自动评估工具,将赋能字幕生成、AR交互及无障碍设备等应用。

Meta近日正式推出全球首个统一的多模态音频分离模型SAM Audio,标志着音频处理技术迈入可交互、可编辑、可理解的新阶段。该模型支持用户通过直观方式,从混杂的音视频中精准提取目标声音。

SAM Audio首次将人类自然感知声音的方式——看、说、指、选——完整融入AI系统。用户可在视频中点击吉他手以分离纯净吉他声,输入“狗吠”即可过滤播客中的犬吠噪音,或圈定特定时间段(如3分12秒至3分18秒),自动剔除整段录音中的同类干扰音。

其核心为自研的感知编码器视听(PE-AV),被Meta称为模型的“耳朵”。该引擎基于今年4月开源的Meta Perception Encoder计算机视觉模型扩展而来,首次实现高级视觉理解与音频信号的深度融合,支持跨模态声音定位与分离。

模型提供三种交互方式:文本提示(如“人声演唱”)、视觉提示(点击画面中的发声物体)和时间片段提示(行业首创)。三者可单独或组合使用,大幅提升操作灵活性与精度。

为推动技术标准化,Meta同步开源两大工具:SAM Audio-Bench——首个基于真实场景的音频分离评测基准;以及SAM Audio Judge——全球首个专用于音频分离质量的自动评估模型,可量化判断结果的纯净度与完整性。

作为底层引擎,PE-AV还将赋能Meta旗下字幕生成、视频理解与智能剪辑等AI产品。其开源有望助力开发者构建“视听联觉”应用,涵盖自动消噪会议记录、沉浸式AR音频交互及无障碍听觉辅助设备等领域。

(以上内容均由Ai生成)

引用自:AIbase人工智能资讯平台

你可能还想读

埃森哲停止披露AI收入但Q1增长强劲

埃森哲停止披露AI收入但Q1增长强劲

快速阅读: 埃森哲公司在声明中表示,其2026财年一季度新订单达209亿美元,先进AI相关订单同比激增76%至22亿美元,营收达187.4亿美元并触及指引上限。公司称AI已深度融入整体业务,将不再单独披露相关数据。 埃森哲公司于近日发布20 […]

发布时间:2025年12月19日
Coursera与Udemy合并加速AI人才培养

Coursera与Udemy合并加速AI人才培养

快速阅读: 据官方透露,受人工智能快速发展影响,企业正转向模块化培训以提升员工AI技能。优达学城与Coursera合并后将构建统一技能记录系统,助力企业动态追踪并培养人才,增强应对技术变革的能力。 近日,亚马逊旗下AWS培训与认证项目董事总 […]

发布时间:2025年12月19日
微软Copilot假日广告承诺落空

微软Copilot假日广告承诺落空

快速阅读: 截至发稿时,用户反映微软Copilot在将食谱份量扩增至14人份时计算中断,并误将网页上的整数倍按钮识别为精确调节控件,最终未能输出调整后的食材清单,暴露出其在连续数值处理与界面理解方面的不足。 近日,有用户反映在使用人工智能助 […]

发布时间:2025年12月19日
谷歌Home应用支持批量迁移Nest设备

谷歌Home应用支持批量迁移Nest设备

快速阅读: 据谷歌消息,Google Home应用现已支持一次性迁移多台旧版Nest设备,涵盖恒温器、摄像头、智能门锁及烟雾报警器,大幅简化此前繁琐的手动操作流程,以加速向统一平台整合并优化用户体验。 谷歌近日在更新日志中宣布,Google […]

发布时间:2025年12月19日
美光称存储芯片短缺将持续至2026年后

美光称存储芯片短缺将持续至2026年后

快速阅读: 据官方透露,亚马逊数字广告平台在美国月活广告受众超3亿,依托Prime Video原创内容及与Netflix等平台的合作,覆盖用户全链路场景,并通过互动广告与营销云AI技术提升品牌营销精准度。 亚马逊数字广告平台(Amazon […]

发布时间:2025年12月19日
Patronus AI推出智能体训练模拟器

Patronus AI推出智能体训练模拟器

快速阅读: 据Patronus AI消息,该公司本月推出“生成式模拟器”,通过动态创建任务与实时更新规则,构建“活态”训练场以提升AI智能体的任务执行能力,并提出“开放递归自改进”机制,支持智能体在无需重训练的情况下持续优化。 人工智能领域 […]

发布时间:2025年12月19日
联想AI战略的五大落地路径

联想AI战略的五大落地路径

快速阅读: 据官方透露,联想集团正系统推进AI规模化应用,已注册超1000个相关项目,并通过“组合式”策略覆盖从试点到全公司推广的全周期。为应对数据监管与技术不确定性,公司强化区域化部署,建立AI工具白名单机制,并将AI目标纳入高管考核,以 […]

发布时间:2025年12月19日
Lovable融资3.3亿美元估值达66亿

Lovable融资3.3亿美元估值达66亿

快速阅读: 截至报道时,据媒体消息,瑞典AI初创公司Lovable完成3.3亿美元B轮融资,估值达66亿美元。其“氛围编程”工具已吸引Uber等客户,日均新增项目超10万个,新资金将用于拓展企业功能与基础设施。 瑞典人工智能初创企业Lova […]

发布时间:2025年12月19日