「三个点电荷 + Q、-2Q 和 + 3Q 等距放置,哪个向量最能描述作用在 + Q 电荷上的净电力方向?」
在解这道题时,我们可以通过绘制受力分析草图轻松解决。但即使是先进的多模态大语言模型,如 GPT-4o,也可能在理解「同性相斥」的基本物理原则时,错误地判断斥力的方向(例如,错误地将 + 3Q 对 + Q 的斥力方向判断为右下方而非正确的左上方)。
这个看似简单的物理问题,却暴露了多模态大模型一个「致命缺陷」:当前的 MLLMs 仍然无法进行需要深度视觉与文本融合的复杂多模态推理!一项最新研究推出的 EMMA 基准测试,如同一面「照妖镜」,揭示了即使是顶尖 MLLMs 也在这关键能力上显著不足。
目前该研究已被 ICML 2025 接收为 spotlight,代码数据已全部开源!
目前已有多个模型 / 方法在 EMMA 上验证其多模态推理能力,研究发现:即使最先进的模型 ——Gemini-2.5-pro-exp-03-25 ,或者是能够进行视觉工具调用的 o3/o4-mini 模型在 EMMA 上的表现仍然落后人类专家超 20%!
研究者们还邀请了人类专家完成题目,并对比了人类专家与 AI 模型的解题过程。可以看出人类专家在面对 EMMA 中的复杂问题时,倾向于借助简洁的手绘草图进行「视觉化思考和空间模拟」,高效地找到解题路径。与之形成鲜明对比的是,模型(如 o3)则依赖于详尽的、结构化的文本步骤进行推理。这种差异凸显了当前 MLLMs 在处理多模态信息时,更偏向于运用其强大的语言逻辑能力进行处理,而较少展现出类人的、以视觉为核心的直观洞察和灵活高效的解题策略。
将文本与图像信息有机结合、协同进行推理,是人类智能的一项核心能力。然而,多模态大语言模型是否真正具备这种深层次、非割裂的多模态推理能力,至今仍缺乏系统而深入的研究。当前的主流基准测试往往偏重于「文本主导」的推理过程,或仅需利用「浅层的视觉感知」而非「视觉推理」便可解决问题,难以全面衡量模型在复杂任务中对视觉与语言信息的整合能力,因而无法有效评估其真实的多模态理解与推理水平。
为应对这一挑战,研究者们提出了 EMMA—— 一个专为评估 MLLMs 在数学、物理、化学和代码这四大领域进行原生多模态推理而设计的增强型基准,具体如下图所示。EMMA 中的任务要求高级的跨模态推理,这些问题无法通过在单一模态中独立思考来解决,从而为 MLLMs 的推理能力提供了更严苛、更全面的「试金石」。
EMMA 不仅仅是一个新的评估数据集,它是一套精心设计的「考题」,旨在全面考察 MLLMs 在以下方面的能力:
该研究具有以下几个主要发现:
EMMA 的构建过程经过精心设计,旨在确保其能够有效评估深层多模态推理能力。
最终得到 EMMA 数据集的关键统计信息及数据分布如下:
研究团队在 EMMA 上评估了 10 个 SOTA MLLMs,包括开源模型(如 Qwen2-VL, LLaVA-Onevision, InternVL2)和闭源模型(如 GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Flash/Thinking, o1)。
EMMA 基准系统性地揭示了当前多模态智能在跨越语言与视觉鸿沟时所面临的具体挑战与瓶颈,并通过设计精细的任务集合,为下一代跨模态模型的发展明确了实践方向与关键突破点。
尽管当前的多模态模型取得了显著的进步,但仍面临着两个重要的技术瓶颈:
因此,未来多模态智能的发展趋势必将从现有的语言主导推理模式逐步转向更深入的模态间动态协作模式。具体而言,下一代模型不仅需要具备视觉动作推理(如调用图像编辑工具辅助推理)的能力,更要实现视觉状态的主动更新和跨模态反馈,从而高效地驱动下一轮语言 - 视觉交互推理。EMMA 所揭示的这些具体挑战与路径,将有助于研究人员更清晰地设计新型多模态模型结构与训练策略,真正推动跨模态智能向更高层次迈进。
文章来自于“机器之心”,作者“机器之心”。
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/