标签: 多模态模型
-
商汤NEO开源,110数据量媲美顶级多模态模型
快速阅读: 商汤科技与南洋理工大学S-Lab联合发布NEO,实现视觉与语言深层统一,数据效率极高,仅需3.9亿图像文本示例,性能超越Qwen2-VL等模型,多项评测中表现优异。 商汤科技与南洋理工大学S-Lab联合发布并开源了全新的多模态模 […]
发布时间:2025-12-03 11:23 来源:szf -
商汤发布NEO架构,原生多模态模型数据需求减90%仍达SOTA
快速阅读: 商汤科技与南洋理工大学S-Lab联合发布原生多模态架构NEO,开源2B和9B两版模型。NEO革新了视觉编码和位置编码技术,实现“像素到Token”连续映射,显著降低数据需求,提升多模态模型性能。 商汤科技与南洋理工大学S-Lab […]
发布时间:2025-12-03 11:20 来源:szf -
快手发布新多模态模型,实现复杂推理新突破
快速阅读: 快手发布新一代多模态模型Keye-VL-671B-A37B,开放代码,提升视觉理解、视频分析和数学推理能力,增强响应准确性和稳定性,推动人工智能技术发展。 快手近日发布了其新一代旗舰多模态模型 Keye-VL-671B-A37B […]
发布时间:2025-11-28 21:06 来源:szf -
美团LongCat推出UNO-Bench,全面提升多模态模型评估能力
快速阅读: 美团LongCat团队推出UNO-Bench基准测试,涵盖44种任务类型和5种模态组合,数据集跨模态可解性达98%,运行速度提升90%,并引入多步骤开放式问题评估模型复杂推理能力。 近日,美团LongCat团队推出名为UNO-B […]
发布时间:2025-11-06 15:24 来源:szf -
LLaVA-OneVision-1.5开源,多模态模型新突破
快速阅读: 开源社区推出LLaVA-OneVision-1.5,多模态模型支持图像、视频输入,训练分三阶段,提升视觉语言理解,性能优异超越Qwen2.5-VL。 近日,开源社区推出了LLaVA-OneVision-1.5,这是一款全新的多模 […]
发布时间:2025-10-17 12:49 来源:szf -
Qwen3-Omni 即将发布,多模态模型再升级
快速阅读: 阿里巴巴云发布Qwen3-Omni跨模态模型,支持多类型输入输出,已提交Hugging Face库,提升资源受限设备部署效率,采用Thinker-Talker双轨设计,适合实时交互。 阿里巴巴云 Qwen 团队即将正式发布最新的 […]
发布时间:2025-09-22 12:06 来源:szf -
Liquid AI 发布轻量级多模态模型,加速AI视觉语言能力设备端部署
快速阅读: Liquid AI 发布 LFM2-VL 系列模型,加速多模态 AI 设备端部署。该系列轻量化设计,支持高效图像与文本处理,显著提升 GPU 推理速度,适用于手机等设备,减少云依赖,增强隐私保护。 Liquid AI 最新发布了 […]
发布时间:2025-09-03 16:29 来源:szf -
InternLM推出8B参数轻量级多模态模型,刷新科技前沿
快速阅读: InternLM团队发布开源轻量级多模态推理模型Intern-S1-mini,参数8B,预训练超5万亿token,涵盖科学领域,具备解析复杂分子式、蛋白质序列能力,多项任务表现优异,支持“思考模式”,增强交互性,助力科研创新。 […]
发布时间:2025-08-24 06:18 来源:szf -
InternLM推出8B参数轻量级多模态推理模型
快速阅读: InternLM团队发布8B参数的多模态推理模型Intern-S1-mini,结合Qwen3-8B语言模型和0.3B视觉编码器,经5万亿token预训练,擅长解析复杂分子式和蛋白质序列,多项测试成绩领先,增强科研应用潜力。 近日 […]
发布时间:2025-08-23 12:39 来源:szf -
面壁智能开源新一代多模态模型MiniCPM-V 4.0
快速阅读: 魔搭ModelScope社区宣布,面壁小钢炮新一代多模态模型MiniCPM-V4.0正式开源,4B参数量在多个榜单上取得同级SOTA成绩,支持手机等移动设备稳定运行,官方同步开源推理部署工具MiniCPM-V CookBook。 […]
发布时间:2025-08-07 10:28 来源:szf