快速阅读: 据Meta消息,该公司近日推出全球首个统一多模态音频分离模型SAM Audio,支持通过文本、视觉或时间提示精准提取目标声音。其自研感知编码器PE-AV实现视听深度融合,并同步开源评测基准与自动评估工具,将赋能字幕生成、AR交互 […]