Meta发布SAM Audio支持点击分离声音
快速阅读: 据Meta消息,该公司近日推出全球首个统一多模态音频分离模型SAM Audio,支持通过文本、视觉或时间提示精准提取目标声音。其自研感知编码器PE-AV实现视听深度融合,并同步开源评测基准与自动评估工具,将赋能字幕生成、AR交互及无障碍设备等应用。
Meta近日正式推出全球首个统一的多模态音频分离模型SAM Audio,标志着音频处理技术迈入可交互、可编辑、可理解的新阶段。该模型支持用户通过直观方式,从混杂的音视频中精准提取目标声音。
SAM Audio首次将人类自然感知声音的方式——看、说、指、选——完整融入AI系统。用户可在视频中点击吉他手以分离纯净吉他声,输入“狗吠”即可过滤播客中的犬吠噪音,或圈定特定时间段(如3分12秒至3分18秒),自动剔除整段录音中的同类干扰音。
其核心为自研的感知编码器视听(PE-AV),被Meta称为模型的“耳朵”。该引擎基于今年4月开源的Meta Perception Encoder计算机视觉模型扩展而来,首次实现高级视觉理解与音频信号的深度融合,支持跨模态声音定位与分离。
模型提供三种交互方式:文本提示(如“人声演唱”)、视觉提示(点击画面中的发声物体)和时间片段提示(行业首创)。三者可单独或组合使用,大幅提升操作灵活性与精度。
为推动技术标准化,Meta同步开源两大工具:SAM Audio-Bench——首个基于真实场景的音频分离评测基准;以及SAM Audio Judge——全球首个专用于音频分离质量的自动评估模型,可量化判断结果的纯净度与完整性。
作为底层引擎,PE-AV还将赋能Meta旗下字幕生成、视频理解与智能剪辑等AI产品。其开源有望助力开发者构建“视听联觉”应用,涵盖自动消噪会议记录、沉浸式AR音频交互及无障碍听觉辅助设备等领域。
(以上内容均由Ai生成)
引用自:AIbase人工智能资讯平台