AI

颠覆传统!Mini-o3 开源模型实现超长视觉推理,深度思考不再是难题

发布时间:2025年9月16日    来源:szf
颠覆传统!Mini-o3 开源模型实现超长视觉推理,深度思考不再是难题

快速阅读: 字节跳动与香港大学联合推出Mini-o3,实现多轮视觉推理技术突破。该模型在训练时限制对话轮数为6轮,测试阶段可扩展至数十轮,大幅提升视觉问题处理能力,达到顶尖水平。

近日,字节跳动与香港大学联合推出了一款全新的开源视觉推理模型 ——Mini-o3,标志着多轮视觉推理技术的又一重大突破。与以往只能进行1-2轮对话的视觉语言模型(VLM)不同,Mini-o3在训练时限制了对话轮数为6轮,但在测试阶段却能将推理轮数扩展至数十轮,极大提升了视觉问题处理的能力。

Mini-o3的强大之处在于其在高难度视觉搜索任务中实现了深度推理,达到当前技术的 顶尖 水平。这得益于该模型的三个核心设计要素。首先,研究团队构建了一个名为 VisualProbe 的视觉探测数据集,包含数千个针对探索性推理设计的视觉搜索难题。其次,他们开发了一种迭代数据收集流程,使模型能够学习深度优先搜索、试错探索和目标维持等多种推理策略。最后,研究团队提出了超轮次掩码策略,在强化学习过程中避免对达到 最大 交互轮次的回答进行惩罚,从而有效提升了训练效率和测试扩展性。

训练 Mini-o3的过程分为两个阶段。

第一 阶段是冷启动监督微调(SFT),旨在激活多轮工具使用能力,研究团队通过上下文学习方式收集了大量高质量的推理轨迹。第二阶段是强化学习(RL),该阶段通过降低图像像素限制和引入超轮次掩码机制,极大提高了模型的互动轮次和推理能力。

Mini-o3在多个视觉搜索基准上表现优异,超越了现有的开源模型。研究人员通过对比实验,发现冷启动 SFT 和超轮次掩码技术是提升推理能力的关键所在。此外,合理的 最大 像素预算设置对于模型性能的优化也至关重要。

Mini-o3的推出不仅在技术上实现了新的高度,也为未来多轮视觉推理的发展提供了新的方向。这个模型的成功标志着在无需消耗大量训练资源的情况下,深度思考和复杂推理的实现变得更加可能。

论文地址:https://arxiv.org/pdf/2509.07969

(以上内容均由Ai生成)

你可能还想读

韩半导体出口创纪录,AI芯片繁荣掩盖改革风险

韩半导体出口创纪录,AI芯片繁荣掩盖改革风险

快速阅读: 韩国今年半导体出口预计超1650亿美元,前九月已达1197亿美元,同比增长17%,占总出口23%。增长因人工智能服务器需求和内存价格上涨,在全球经济放缓中展现韧性。 据韩国贸易、工业和资源部本周消息,今年韩国半导体出口预计将达到 […]

发布时间:2025年10月24日
纽约消防局启用AI摄像头,提前预警森林火灾

纽约消防局启用AI摄像头,提前预警森林火灾

快速阅读: 纽约市消防局推出太阳能驱动、AI支持的烟雾检测摄像头,可在火势蔓延前及时发现火灾,计划扩展至五个行政区,增强早期预警能力,保护高风险区域安全。 纽约市消防局(FDNY)的灌木火灾特遣队最近推出了最新的太阳能驱动、人工智能支持的烟 […]

发布时间:2025年10月24日
谷歌云TPU助力Anthropic扩大Claude训练规模

谷歌云TPU助力Anthropic扩大Claude训练规模

快速阅读: Anthropic与Google深化合作,扩大计算能力,支持Claude满足快速增长的客户需求,巩固行业领先位置。 Anthropic 和 Google 有着长期的合作关系,此次合作的进一步扩展将帮助我们继续扩大所需的计算能力, […]

发布时间:2025年10月24日
中兴呼吁重耦合计算与网络,推动AI可持续发展

中兴呼吁重耦合计算与网络,推动AI可持续发展

快速阅读: 中兴通讯CEO徐子阳呼吁电信与计算行业重新耦合,以适应AI需求增长,提出AI Core战略,展示多款支持AI的产品,强调可持续发展与成本控制,与泰国AIS合作提升网络效率。 近年来,电信和计算行业纷纷采取解耦策略,通过技术与产品 […]

发布时间:2025年10月24日
微软推出新AI角色Mico,赋予Copilot虚拟助手新面貌

微软推出新AI角色Mico,赋予Copilot虚拟助手新面貌

快速阅读: 微软推出新AI角色Mico,作为Copilot虚拟助手的化身,旨在为AI聊天机器人增添个性,同时保持友好而不谄媚的形象,通过表情和动作响应用户情绪,目前仅限美国用户使用。 近三十年前令微软Office用户感到厌烦的动画纸夹Cli […]

发布时间:2025年10月24日
英特尔Q3营收137亿美元,同比增长3%成功扭亏为盈

英特尔Q3营收137亿美元,同比增长3%成功扭亏为盈

快速阅读: 英特尔公布2025年第三季度财报,营收137亿美元,同比增长3%,毛利率达38.2%。各业务部门表现不一,CCG营收增长5%,DCAI和代工业务略有下降。期间获多笔重大投资,推进技术创新和市场扩展。 感谢IT之家网友HH_KK、 […]

发布时间:2025年10月24日
微软推出AI伴侣Mico,致敬经典Clippy大眼夹

微软推出AI伴侣Mico,致敬经典Clippy大眼夹

快速阅读: 微软推出AI聊天机器人Mico,具有表情丰富的头像,能倾听互动并根据用户操作变换颜色。首次在美国、加拿大和英国推出,支持“Learn Live”模式,旨在加深人际联系。 10 月 24 日消息,北京时间今天凌晨,微软推出了一款名 […]

发布时间:2025年10月24日
英特尔107制程产能紧张,AI PC出货预期不变

英特尔107制程产能紧张,AI PC出货预期不变

快速阅读: 英特尔在2025Q3财报电话会议中宣布,Intel 10/7制程节点供应紧张,尽管第三季度晶圆交付量超出预期,仍无法满足客户需求。英特尔计划利用现有库存并引导客户转向其他产品,预计2026年一季度供应更紧。同时,英特尔维持年底前 […]

发布时间:2025年10月24日