清华快手合作推出SVG模型,训练效率提升6200%

发布时间:2025年10月29日    来源:szf
清华快手合作推出SVG模型,训练效率提升6200%

快速阅读: 清华大学与快手合作推出SVG模型,解决VAE“语义纠缠”问题,训练效率提升6200%,生成速度提高3500%,FID值达6.57,支持多任务应用。

在近期的科技界,VAE(变分自编码器)正在经历被逐步淘汰的尴尬局面,随着清华大学与快手可灵团队的合作,推出了一款名为 SVG(无 VAE 潜在扩散模型)的新型生成模型。此次创新不仅在训练效率上实现了6200% 的惊人提升,而且在生成速度上更是达到了3500% 的飞跃。

VAE 在图像生成领域的衰退,主要源于其存在的 “语义纠缠” 问题。也就是说,当我们尝试仅仅改变图像中某一特征(如猫的颜色)时,其他特征(如体型、表情)往往也会受到影响,导致生成的图像不够精准。为了解决这个问题,清华与快手的 SVG 模型采取了不同的策略,主动构建了一个融合语义与细节的特征空间。

在 SVG 模型的设计中,团队首先使用 DINOv3预训练模型作为语义提取器,该模型经过大规模的自监督学习,能够有效识别和分离不同类别的特征,解决了传统 VAE 模型中的语义混乱。此外,为了补充细节,团队还特别设计了一个轻量级的残差编码器,确保细节信息不会与语义特征相冲突。关键的分布对齐机制则进一步增强了这两种特征的融合,保证了生成图像的高质量。

实验结果表明,SVG 模型在生成质量和多任务通用性方面,全面超越了传统的 VAE 方案。在 ImageNet 数据集上,SVG 模型在仅训练80个周期时,FID 值(衡量生成图像与真实图像相似度的指标)达到6.57,远超同规模的 VAE 模型;而在推理效率上,SVG 模型也显示出卓越的性能,在较少的采样步骤下即可生成清晰图像。此外,SVG 模型的特征空间还可直接用于图像分类、语义分割等多种视觉任务,无需额外微调,大大提高了应用的灵活性。

清华与快手的这一新技术不仅为图像生成领域带来了革命性的变化,更有望在多模态生成任务中展现出强大的潜力。

论文地址:https://arxiv.org/pdf/2510.15301

(以上内容均由Ai生成)

你可能还想读

科技巨头借AI裁员推平庸模型

科技巨头借AI裁员推平庸模型

快速阅读: 据媒体报道,OpenAI推出GPT-5.2强化办公功能并拓展企业合作,同时AI行业竞争加剧、内部人事频繁调整;另有印度IT从业者巧用AI反制诈骗者,引发对技术伦理与从业者权益的广泛关注。 近日,人工智能领域竞争持续加剧,多家科技 […]

发布时间:2025年12月15日
Okibo推自主AI喷涂机器人EG7+

Okibo推自主AI喷涂机器人EG7+

快速阅读: 据Okibo公司消息,其EG7+设备采用电池供电,运用AI驱动的三维扫描与实时建模算法,实现无需外部参照物或专业人员的完全自主作业,每小时可覆盖约1000平方英尺,显著降低施工对基础设施和人力的依赖。 Okibo公司表示,EG7 […]

发布时间:2025年12月15日
AI基建投资新选择:Nebius与Iren对比

AI基建投资新选择:Nebius与Iren对比

快速阅读: 截至目前,据英伟达CEO黄仁勋预测,到2030年全球企业将在AI基础设施和数据中心投入3至4万亿美元,凸显算力、存储等底层支撑体系的关键地位,并将推动产业链广泛机遇。 人工智能(AI)产业的快速发展带动了相关投资机会,其中AI基 […]

发布时间:2025年12月15日
麦当劳荷兰AI圣诞广告引众怒

麦当劳荷兰AI圣诞广告引众怒

快速阅读: 据荷兰麦当劳消息,其近日发布的AI生成圣诞广告因视觉诡异、基调消极引发广泛批评,被指背离节日温馨氛围,上线后迅速下架;公司已致歉并承认AI在情感与文化表达上的局限,事件再度引发对AI创意应用边界的讨论。 荷兰麦当劳近日发布了一则 […]

发布时间:2025年12月15日
韩国签署“硅基和平”宣言加入AI联盟

韩国签署“硅基和平”宣言加入AI联盟

快速阅读: 公开资料显示,韩国、美国等七国近日在华盛顿签署《硅基和平》宣言,旨在构建人工智能与关键矿产领域的可信供应链,强调减少对单一来源的依赖、应对非市场行为,并推动技术全栈向可信伙伴开放。 韩国、美国等七国近日在华盛顿签署《硅基和平》( […]

发布时间:2025年12月15日
AI男友:算法读懂你的心

AI男友:算法读懂你的心

快速阅读: 记者获悉,人工智能聊天机器人因高度个性化互动引发用户情感依赖,专家警示其“共情”实为算法适配,呼吁加强伦理评估,防范心理边界模糊与技术滥用风险。 人工智能聊天机器人正引发人们对人机关系的深入思考。用户最初可能仅将其用于兴趣爱好辅 […]

发布时间:2025年12月15日
Oracle与Broadcom重击AI股估值泡沫

Oracle与Broadcom重击AI股估值泡沫

快速阅读: 截至本周,受AI业务延迟及盈利压力影响,甲骨文与博通股价大跌,市场对高估值AI股趋于审慎,但主流资金仍看好头部企业长期前景,做空行为集中于中小个股而非系统性看空。 近期,甲骨文公司与博通公司相继发布财报及业务更新,引发市场对人工 […]

发布时间:2025年12月15日
年轻求职者主动掌握AI技能应对招聘新要求

年轻求职者主动掌握AI技能应对招聘新要求

快速阅读: 据相关报道,优秀求职者普遍熟练运用人工智能工具并展现技术好奇心,即便非科班背景也能有效展示AI应用能力;提示工程与AI输出的审辨力已成为职场新基本要求,正推动教育和培训体系加速改革以适应技术变革。 在当前技术快速发展的背景下,优 […]

发布时间:2025年12月15日