Meta发布SAM Audio支持点击分离声音

发布时间：2025年12月18日来源：szf

快速阅读: 据Meta消息，该公司近日推出全球首个统一多模态音频分离模型SAM Audio，支持通过文本、视觉或时间提示精准提取目标声音。其自研感知编码器PE-AV实现视听深度融合，并同步开源评测基准与自动评估工具，将赋能字幕生成、AR交互及无障碍设备等应用。

Meta近日正式推出全球首个统一的多模态音频分离模型SAM Audio，标志着音频处理技术迈入可交互、可编辑、可理解的新阶段。该模型支持用户通过直观方式，从混杂的音视频中精准提取目标声音。

SAM Audio首次将人类自然感知声音的方式——看、说、指、选——完整融入AI系统。用户可在视频中点击吉他手以分离纯净吉他声，输入“狗吠”即可过滤播客中的犬吠噪音，或圈定特定时间段（如3分12秒至3分18秒），自动剔除整段录音中的同类干扰音。

其核心为自研的感知编码器视听（PE-AV），被Meta称为模型的“耳朵”。该引擎基于今年4月开源的Meta Perception Encoder计算机视觉模型扩展而来，首次实现高级视觉理解与音频信号的深度融合，支持跨模态声音定位与分离。

模型提供三种交互方式：文本提示（如“人声演唱”）、视觉提示（点击画面中的发声物体）和时间片段提示（行业首创）。三者可单独或组合使用，大幅提升操作灵活性与精度。

为推动技术标准化，Meta同步开源两大工具：SAM Audio-Bench——首个基于真实场景的音频分离评测基准；以及SAM Audio Judge——全球首个专用于音频分离质量的自动评估模型，可量化判断结果的纯净度与完整性。

作为底层引擎，PE-AV还将赋能Meta旗下字幕生成、视频理解与智能剪辑等AI产品。其开源有望助力开发者构建“视听联觉”应用，涵盖自动消噪会议记录、沉浸式AR音频交互及无障碍听觉辅助设备等领域。

(以上内容均由Ai生成)

引用自：AIbase人工智能资讯平台

你可能还想读