Gemini-2.0夺冠!全球首个几何推理专项评测出炉,淘天集团出品

搜索
AI-TNT
正文
资源拓展
Gemini-2.0夺冠!全球首个几何推理专项评测出炉,淘天集团出品
2025-04-28 17:35

多模态大模型几何解题哪家强?


首个从几何原理视角出发,全面评估多模态大模型几何解题能力的双语综合基准来了!


GeoSense,系统评测多模态大模型在几何原理识别和应用中的表现,评测基准的数据和评测代码均已开源。


其背后团队来自淘天集团算法技术-未来生活实验室团队。


Gemini-2.0夺冠!全球首个几何推理专项评测出炉,淘天集团出品


人类在解答几何问题时,首先会识别所需的几何原理并通过灵活应用它们来推导出答案。


然而,目前的评测方法多集中于最终答案的正确性或简单地对每个推理步骤进行打分,而忽视了推理过程中的关键因素:几何原理的识别和应用。


尽管有研究发现模型的对几何图的感知能力不足限制了其后续推理,


但实验发现,几何原理与图像中几何元素的正确对应及应用,是多模态大模型推理的另一大瓶颈。


为填补这一空白,GeoSense出现了,为在复杂视觉场景中的推理能力提升提供了新的方向。


5层知识架构+1789道几何问题


GeoSense旨在系统评估多模态大模型识别和应用几何原理来解决几何问题的能力。


该基准建立了包含定义、定理和公式等几何原理的5层知识架构,覆盖平面几何和立体几何,支持中英双语;


精心构建并人工详细标注了包括1789道问题的数据集;并针对几何原理设计了创新性的评估策略。


它构建了包含148个几何原理的5层知识架构,覆盖平面几何和立体几何的65个定义,


47个定理和36个计算公式,多维度细粒度地评估模型面对几何问题时识别和应用知识的能力。


此外,Geosense有精细标注的数据集。


它收纳了1789道几何问题,并使用中英双语详细标注了解题所必需的5556个几何原理及其与几何图中元素的对应与应用,


并使用特殊标签()标注了解题中的关键点,确保模型评估的综合性和准确性。


Gemini-2.0夺冠!全球首个几何推理专项评测出炉,淘天集团出品


GeoSense拥有严格的构建流程,共有23位几何领域的研究生同学进行数据标注、审核和质量把控。


下图展示了一道题目的双语标注示例。


Gemini-2.0夺冠!全球首个几何推理专项评测出炉,淘天集团出品


值得一提的是,GeoSense采用创新的评估方法,创新性地提出GPI(几何原理识别)和GPA(几何原理应用)两个评估指标,


重点审视模型在复杂视觉场景中的几何原理识别和应用能力,帮助识别模型推理过程中的潜在不足与提升空间。


评估系统:GPI+GPA+ACC


GeoSense贡献了一种新的评估系统,包括几何原理识别(GPI)评分和几何原理应用(GPA)评分以及答案正确性评分 (ACC)


以全面评估多模态大模型在GPS中类人的推理机制。


Gemini-2.0夺冠!全球首个几何推理专项评测出炉,淘天集团出品


GPI(几何原理识别评分)


作者使用GPI来评估模型能否正确识别解决问题所必需的几何原理。


如上图所示,对于每个几何问题 ,专家标注了解题所必需的几何原理集合。


对于每个几何原理,作者借助GPT-4o判断其是否在模型的响应中被应用。最终的GPI得分是几何原理集合中模型可以正确识别的几何原理的比例。


然而,仅仅通过此指标仍然无法得知,模型是否在视觉环境中合理地使用这些原理解决问题。


这与人类解决几何问题时遇到的困境相似:在某些情况下,人类知道应该运用相似三角形的知识来解决问题,


但在实际的几何图形中,往往难以正确对应各个相似元素并将几何原理正确应用。


GPA(几何原理应用评分)


为了进一步衡量模型在视觉环境中应用几何原理的能力,作者们提出了GPA指标。


如上图所示,对于模型正确识别的每个几何原理,首先提取模型响应中与该几何原理相关的内容。


而后将提取到的内容与标注中的关键点进行比对,计算F1 score作为该几何原理的GPA评分。


ACC(答案准确性评分)


作者还评估了答案的准确性,以评估模型正确识别和组合应用多个几何原理以解决问题的能力。


以下是跟现有流行的多模态几何相关的多个评测基准的对比:


Gemini-2.0夺冠!全球首个几何推理专项评测出炉,淘天集团出品


Gemini-2.0-Pro-Flash表现最佳


该团队对多个开源和闭源模型进行了全面评测和分析,并给出了这些模型在GPI、GPA和ACC三个指标的平均值上的排名情况。


Gemini-2.0夺冠!全球首个几何推理专项评测出炉,淘天集团出品


最佳表现模型


Gemini-2.0-Pro-Flash在以几何原理为中心的解题能力评估中表现最佳,其次是Qwen2.5-VL-72B和QvQ-72B-Preview。


在开源模型中,Qwen-VL系列表现最为突出。


推理增强类模型的潜力与挑战


推理模型如QVQ-72B-Preview在几何原理识别和应用上展现了强大的潜力,但在实际问题解决中面临准确率挑战,


这是由于过度复杂化思考过程从而无法得到正确答案导致的。


此外,InternVL2.5-38B-MPO在几何原理识别率(GPI)和应用准确率(GPA)方面相较于nternVL2.5-38B有所提升,显示了优化模型推理思维过程的有效性。


平面几何理解是共同短板


多模态大模型在平面几何的理解方面存在明显不足。


以Claude3.55-Sonnet为例,其在平面图形的转换和移动(TMPF)以及平面图形的理解(UPF)中的几何原理识别率(GPI)分别为65.9和45.1,


应用准确率(GPA)更低,为32.5和38.7。


这一现象显示出在处理二维空间问题时,模型的识别和应用能力均较弱,


说明多模态大模型在视觉信息处理和空间关系推理方面需要进一步优化,以改善其在平面几何任务中的表现。


推理能力随模型规模提升


一般情况下,同一系列的模型规模越大,表现越优。


例如,Qwen2.5-VL系列从7B增至72B后,三种指标的平均分(AVG)从 51.3 提升至 60.1。


实验都有哪些发现?


什么限制了多模态大模型的推理能力?


GPI和GPA的降低都会导致ACC的降低。


在上表中,InternVL-2.5-8B和InternVL-2.5-38B在定义类几何原理上的GPA基本相同,


但由于InternVL-2.5-38B的GPI得分比InternVL-2.5-8B高了5%,导致其ACC比后者高了7.7%。


另外,其他一些例子如Claude37-Sonnet和Qwen2.5-VL-72B在全量评测下的结果体现了GPA的降低也会影响模型的表现。


此外,大部分多模态大模型在GeoSense上的GPI和GPA都较低,这体现了几何原理的识别和应用共同限制了多模态大模型的推理能力。


为什么多模态大模型在复杂问题中表现更差?


研究团队观察到,随着所需几何原理数量的增加,GPI和ACC分数都降低,而GPA分数则受到的影响较小。这样的趋势在闭源多模态大模型中更加明显。


这些观察结果表明,多模态大模型在复杂问题上的较差表现主要是由于未能准确识别必需的几何原理所导致的。


该实验强调了提高多模态大模型识别几何原理能力的重要性,以进一步增强其推理能力。


Gemini-2.0夺冠!全球首个几何推理专项评测出炉,淘天集团出品


更擅长哪种知识,哪方面有所欠缺?


多模态大模型在计算方面表现出色,但在几何性质理解方面却存在不足。


从上表的结果来看,多模态大模型在公式类问题上的三个指标表现显著优于定义和定理类问题,特别是在GPI指标上。


这表明,多模态大模型在面对计算问题时能够更清楚地识别所需的几何原理。


相比之下,定义和定理通常包含几何元素的抽象属性和关系,这是多模态大模型难以理解的。


为什么在平面几何领域表现不好?


研究人员发现,GPI限制了多模态大模型在平面几何中的表现。


就GPI指标而言,大多数模型在USF科目上的表现优于UPF科目。然而,对于GPA指标,两个科目之间的表现差异不显著。


尽管如此,就ACC指标而言,大多数模型在USF上的表现仍然更好。


这些观察结果表明,限制模型解决平面几何问题能力的关键因素是GPI,即模型在准确识别必需的几何原理方面遇到的困难。


这是由于平面几何中存在许多容易混淆的原理,如判定相似和全等三角形。


这强调了模型需要准确识别必要原理,以增强其对平面几何的理解。


Gemini-2.0夺冠!全球首个几何推理专项评测出炉,淘天集团出品


论文链接:


https://arxiv.org/abs/2504.12597


项目主页:


https://gfzshiwai.github.io/GeoSense_Project/


Github:


https://github.com/GFZShiwai/GeoSense


文章来自于 “量子位”,作者 :GeoSense团队


Gemini-2.0夺冠!全球首个几何推理专项评测出炉,淘天集团出品

1
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

IOS下载
安卓下载
微信群
沪ICP备2023015588号