多模态模型 – 数智风暴

快速阅读: 商汤科技与南洋理工大学S-Lab联合发布NEO，实现视觉与语言深层统一，数据效率极高，仅需3.9亿图像文本示例，性能超越Qwen2-VL等模型，多项评测中表现优异。商汤科技与南洋理工大学S-Lab联合发布并开源了全新的多模态模 […]

快速阅读: 商汤科技与南洋理工大学S-Lab联合发布原生多模态架构NEO，开源2B和9B两版模型。NEO革新了视觉编码和位置编码技术，实现“像素到Token”连续映射，显著降低数据需求，提升多模态模型性能。商汤科技与南洋理工大学S-Lab […]

快速阅读: 快手发布新一代多模态模型Keye-VL-671B-A37B，开放代码，提升视觉理解、视频分析和数学推理能力，增强响应准确性和稳定性，推动人工智能技术发展。快手近日发布了其新一代旗舰多模态模型 Keye-VL-671B-A37B […]

快速阅读: 美团LongCat团队推出UNO-Bench基准测试，涵盖44种任务类型和5种模态组合，数据集跨模态可解性达98%，运行速度提升90%，并引入多步骤开放式问题评估模型复杂推理能力。近日，美团LongCat团队推出名为UNO-B […]

快速阅读: 开源社区推出LLaVA-OneVision-1.5，多模态模型支持图像、视频输入，训练分三阶段，提升视觉语言理解，性能优异超越Qwen2.5-VL。近日，开源社区推出了LLaVA-OneVision-1.5，这是一款全新的多模 […]

快速阅读: 阿里巴巴云发布Qwen3-Omni跨模态模型，支持多类型输入输出，已提交Hugging Face库，提升资源受限设备部署效率，采用Thinker-Talker双轨设计，适合实时交互。阿里巴巴云 Qwen 团队即将正式发布最新的 […]

快速阅读: Liquid AI 发布 LFM2-VL 系列模型，加速多模态 AI 设备端部署。该系列轻量化设计，支持高效图像与文本处理，显著提升 GPU 推理速度，适用于手机等设备，减少云依赖，增强隐私保护。 Liquid AI 最新发布了 […]

快速阅读: InternLM团队发布开源轻量级多模态推理模型Intern-S1-mini，参数8B，预训练超5万亿token，涵盖科学领域，具备解析复杂分子式、蛋白质序列能力，多项任务表现优异，支持“思考模式”，增强交互性，助力科研创新。 […]

快速阅读: InternLM团队发布8B参数的多模态推理模型Intern-S1-mini，结合Qwen3-8B语言模型和0.3B视觉编码器，经5万亿token预训练，擅长解析复杂分子式和蛋白质序列，多项测试成绩领先，增强科研应用潜力。近日 […]

快速阅读: 魔搭ModelScope社区宣布，面壁小钢炮新一代多模态模型MiniCPM-V4.0正式开源，4B参数量在多个榜单上取得同级SOTA成绩，支持手机等移动设备稳定运行，官方同步开源推理部署工具MiniCPM-V CookBook。 […]