AI

港大美团合作破解AI几何难题,CodePlot-CoT提升21%性能

发布时间:2025年10月14日    来源:szf
港大美团合作破解AI几何难题,CodePlot-CoT提升21%性能

快速阅读: 香港大学与美团团队提出CodePlot-CoT,解决大模型处理数学几何题难题。通过编写绘图代码而非直接生成图像,实现精准视觉推理,大幅提升解题准确性。

大型语言模型在处理数学几何题时一直存在明显短板。无论是GPT-4.1还是Gemini-2.5-Pro,在写作、编程等任务上表现出色,但一旦遇到需要画辅助线或函数图像才能解决的数学题,就会频繁出错。

问题的根源在于大模型是语言天才,但不是几何学家。它们擅长纯文本思维链推理,可以逐步推导公式,但要在脑海中精确画图并据此得出结论,却常常力不从心,甚至给出错误答案。

香港大学和美团团队近日发布的论文《CODEPLOT-COT: MATHEMATICAL VISUAL REASONING BY THINKING WITH CODE-DRIVEN IMAGES》,为这一难题提供了创新解决方案。他们找到了让大模型一边画图一边思考,而且图画得 超级 精准的方法。

过去的研究曾尝试视觉思维链方法,让模型直接生成或操作图像来辅助推理。但这种方法在数学领域效果不佳。自然图片追求的是纹理和光影等像素级细节,而数学图形需要 绝对 的精确性,要保证角度、线段比例、点的位置等严格符合几何约束。让AI直接生成满足严格几何约束的图像,就像让写意派画家画精确到毫米的工程图,根本不是一回事。生成模型在处理高维像素分布时容易失真,无法保证数学所需的精确度和可控性。

这篇论文的核心创新在于,既然直接画图不靠谱,为什么不让大模型做它最擅长的事情——写代码?团队提出了CodePlot-CoT代码驱动思维链范式。

具体流程是这样的。首先,大模型接收数学题目并进行推理。当推理过程需要画辅助线或函数图时,模型不会生成图片,而是生成一段可执行的绘图代码,比如Python的Matplotlib代码。然后这段代码会在Python渲染器中执行,瞬间生成一张精确的几何图形。最后模型将这张代码渲染的图像重新输入回推理链中,继续文本推理直到得出最终答案。

这一方法巧妙地将难以精确控制的图像生成问题,转化成了大模型最擅长的语言建模问题。数学图形最核心的结构属性,如形状、位置、角度,恰好能通过结构化代码完美表达,完美避开了像素级细节的干扰。

为了训练这样的模型,团队打造了两件神器。

第一 件是Math-VR数据集,包含17.8万个双语数学问题。与以前的基准测试不同,过去的题目图都画好了,只需要看图说话,而Math-VR要求模型主动画图思考。比如一道等腰三角形题目,可能需要考虑三种情况,模型得自己画出三种图来分析。在学科分布上,几何学占了约81%的 绝对 主导地位。

第二件神器是MatplotCode转换器,这是一个专门用于数学图形的图像到代码翻译工具,能将数学图高保真地转换成Python绘图代码。即使是 顶级 商业模型如Gemini-2.5-Pro和GPT-5在零样本情况下,也不能可靠地将复杂数学图形精准转换成绘图代码。实验证明,这个转换器的代码生成成功率和图像重建保真度都远超现有模型。

实验结果证实了这种代码即思维范式的有效性。在Math-VR基准测试上,CodePlot-CoT相较于基础模型性能提升高达21%。更值得注意的是,即使是参数量更大的 顶级 闭源模型如Gemini-2.5-Pro,在这个新基准上仍有约三分之一的题目会做错。这有力证明,仅仅增加模型规模和文本思维链长度是不够的,想要真正解决视觉数学推理问题,可控、精确、可验证的代码驱动视觉推理才是关键。

CodePlot-CoT的成功不仅是又一个先进模型,更为多模态数学推理开辟了全新方向。它证明在需要高精度和强逻辑的领域,如科学计算、工程设计,大模型不应执着于模仿人类笔触,而应利用其编程能力构建精确可控的数字世界,再在这个世界里进行推理和验证。

该团队已将所有数据集、代码和预训练模型开源,为整个AI社区提供了宝贵资源。这标志着大模型在几何题推理上迈出了重要一步,通过代码驱动的视觉推理方法,AI终于找到了破解数学几何难题的有效途径。

论文地址:https://arxiv.org/pdf/2510.11718

(以上内容均由Ai生成)

你可能还想读

杭州率先为具身智能机器人立法,将明确从业者的伦理“红线”

杭州率先为具身智能机器人立法,将明确从业者的伦理“红线”

快速阅读: 杭州将率先为“具身智能机器人”立法,促进产业发展。《条例(草案)》经市政府常务会议审议通过,涵盖技术创新、基础设施建设、伦理规范等内容,旨在提升产业核心竞争力,推动产品应用落地。 因包括宇树科技在内的“杭州六小龙”爆火出圈而备受 […]

发布时间:2025年10月23日
以AI为纽带,第三期人工智能能力建设研讨班在上海人工智能研究院顺利举行

以AI为纽带,第三期人工智能能力建设研讨班在上海人工智能研究院顺利举行

快速阅读: 10月23日,上海人工智能研究院举办第三期人工智能能力建设研讨班,来自38个国家的政府官员参与。研讨班旨在落实联合国决议,推动AI国际合作,展示中国AI创新成果,促进全球AI普惠发展。 上海人工智能研究院院长 全球工业人工智能联 […]

发布时间:2025年10月23日
Airbnb称赞阿里开源AI模型:快速且经济

Airbnb称赞阿里开源AI模型:快速且经济

快速阅读: Airbnb首席执行官Brian Chesky称赞阿里巴巴Qwen模型,因其速度快、成本低,助力Airbnb客服代理提升效率,计划扩展多语言支持。中国科技企业开源AI策略获国际认可。 家庭住宿预订平台Airbnb赞扬了阿里巴巴的 […]

发布时间:2025年10月23日
比利时考虑对AI数据中心设电力限制

比利时考虑对AI数据中心设电力限制

快速阅读: 比利时电网运营商Elia考虑限制数据中心电力分配,以防其他用户受影响。自2022年以来,数据中心电力需求激增,2034年预留容量超计划两倍。目前数据中心耗电占全国4%,预计2035年将增至10%以上。 比利时电网运营商Elia正 […]

发布时间:2025年10月23日
荣耀YOYO智能体一键领券,Magic8系列轻松比价购物

荣耀YOYO智能体一键领券,Magic8系列轻松比价购物

快速阅读: 荣耀发布自进化AI原生手机Magic8系列,YOYO智能体实现自动领券、比价等功能,简化购物流程,提升用户体验,覆盖购物、美食、出行等多场景。 10 月 15 日,荣耀发布了首款自进化 AI 原生手机 —— 荣耀 Magic8 […]

发布时间:2025年10月23日
阿里Qwen升级Deep Research:一键生成报告、网页及播客

阿里Qwen升级Deep Research:一键生成报告、网页及播客

快速阅读: 阿里巴巴Qwen团队升级Deep Research工具,集成网页版Qwen Chat,提供研究至发布的全流程体验。新功能支持生成研究报告、交互式网页和多说话者播客,涵盖代码生成、图像渲染和语音合成功能,用户可直接使用无需配置基础 […]

发布时间:2025年10月23日
亚马逊测试AI配送眼镜,包裹导航与风险检测一镜完成

亚马逊测试AI配送眼镜,包裹导航与风险检测一镜完成

快速阅读: 亚马逊开发AI智能眼镜,提升送货司机配送效率与安全性,集成AI传感、计算机视觉等功能,支持自动调光与处方镜片定制,正在北美测试并将逐步推广。 【AIbase 报道】亚马逊周三宣布,正为旗下送货司机开发一款 AI 智能眼镜 ,旨在 […]

发布时间:2025年10月23日
通用汽车明年起搭载Google Gemini AI助手,提升驾驶体验

通用汽车明年起搭载Google Gemini AI助手,提升驾驶体验

快速阅读: 通用汽车宣布将在其2015年及以后车型中集成Google Gemini驱动的AI助手,提供导航、消息发送等服务,强调用户体验和隐私保护,标志着汽车行业智能化新阶段。 通用汽车周三在纽约 GM Forward 大会上宣布,将从明年 […]

发布时间:2025年10月23日