ACL 2026 Oral｜语义推理如鲠在喉：大模型被「短语」难住了

AI技术研报 2026-06-11 14:32

+11921 阅读

论文标题：Revisiting a Pain in the Neck: A Semantic Reasoning Benchmark for Language Models
项目主页：https://semanticqa.github.io
论文链接：https://arxiv.org/pdf/2604.16593
评测实现：https://github.com/jacklanda/SemanticQA

引言：当语言理解成为假象

AI 的能力边界正在不断被刷新。从数学推理到代码生成，再到数字化白领，语言模型和语言智能体在诸多基准测试中已展现出超越人类专家的表现。一个看似顺理成章的判断早已成为共识：语言模型已经具备了扎实的语言理解和语义推理能力。然而，ACL 2026 Oral 的一项研究工作从一个更基础的层面重新审视了这个问题：语言模型真的理解（短语）语义吗？

问题的起点，是一类经典的语言现象。「Kick the Bucket」不是「踢桶」，「Rocket Science」并非「火箭科学」，「Alarm Clock Rings」也远不止字面意义上的「闹铃」。这类多词表达（Multiword Expressions，简称为 MWE）在自然语言中无处不在，它们的含义往往无法从各个组成词语中直接推导，需要结合语境、惯例乃至世界知识才能准确理解。长期以来，这被视为自然语言处理的经典难题，如鲠在喉（A Pain in the Neck for NLP）[1] 。

时至今日，这道难题依旧摆在了前沿模型面前。

来自北京通用人工智能研究院与北京科技大学的研究者提出了一个分析框架 SemanticQA，系统评估了模型在短语语义理解上的真实水平。

不同于以往孤立考察单一任务的做法，SemanticQA 将语义理解拆解为三种原子操作：分类（Categorization）、抽取（Extraction）与释义（Interpretation），并在此基础上覆盖了四类典型短语现象：惯用表达、固定搭配、复合名词与动词多词表达，形成了一个结构严谨、覆盖广泛的诊断性测试基准。

评估对象横跨十余个模型，从 BERT 和 T5 等经典架构模型，到 GPT-5、Claude Sonnet、DeepSeek-R1 和 Gemini 2.5 Pro 等近期前沿模型，几乎涵盖了主流的开源与闭源系统。

反直觉的结论：即便是最先进的大模型，在处理短语层面的语义时仍存在系统性缺陷。没有任何一个模型能够在所有任务上保持稳定的高水准表现，不同操作类型之间的性能落差显著：模型或许能够流畅地解释一个惯用语，却在精确抽取相同表达时屡屡失手；分类任务随着语义类别数量的增加急剧退化，而在需要多步骤串联的组合任务中，上游的抽取错误更会如滚雪球般放大下游的解释偏差。更值得警惕的是，那些在语义相似度指标（如 BERTScore）下表现亮眼的模型，未必真正掌握了结构性的语义推理能力。高分背后，可能只是对示例模式的精巧模仿。

这些发现提醒我们：在为语言模型的惊人能力欢呼之前，或许值得在更基础的地方多停留片刻。短语，是语言理解扎根的地方。

背景与痛点：为什么我们需要语义推理？

当前主流的推理评测基准大多聚焦于数学求解、代码生成与逻辑推断。它们考察的是模型在显式符号规则下的运算能力，却鲜少触及语言最基本的构成单元 —— 短语 [2][10]。事实上，大量日常表达的含义并非来自词语的简单叠加，而是涌现于词汇之间的约定俗成、语境线索与世界知识的交织之中。现有评测的盲区，恰恰就藏在这里。

与现有基准不同，SemanticQA 没有简单堆砌任务规模，而是先做了一步简洁的抽象：将「短语语义理解」拆解为三个可操作的基本能力环节：

抽取：从句子中准确识别目标短语，要求完成精确的跨度定位，而非模糊的猜测；
分类：判断该短语的语义类型（如习语、固定搭配、名词复合词等），考察模型对语义关系的结构化理解；
释义：在给定语境下生成该短语的释义，要求模型将潜在的词义解释成可读的自然语言陈述。

这三步分别对应结构识别、语义判断和生成表达，共同构成对短语语义的完整检验。它们的输出形式各异，抽取要求精准的字面匹配，分类依赖有限选项内的判断，释义则是开放式的语言生成 —— 这种结构差异本身，也成为诊断模型能力边界的有效手段。

其核心设计思想是「操作对齐」（Operation-Aligned）：同一个短语实例在不同任务中被统一建模，采用固定的提示模板加以呈现，从而有效压制提示诱导带来的噪声，使不同模型之间的横向比较更加公平可靠。这一设计也直接回应了传统评测中长期存在的混淆：任务表现不等于能力水平，一个模型或许凭借格式敏感性在释义任务中得高分，却在抽取同一短语时茫然失措。

换句话说，如果模型真的理解了某个短语，它应当在这三类任务上表现出稳定的跨操作一致性，而非只在某一类上擅长。正是这种一致性，才是 SemanticQA 所定义的（短语）语义推理能力。

主要贡献：涵盖四大短语难题

在数据层面，SemanticQA 涵盖了四类最典型、也最让语言处理系统头疼的短语现象：习语（Idiomatic Expressions）、固定搭配（Lexical Collocations）、名词复合结构（Noun Compounds）和动词多词表达（Verbal MWEs）[3][8]。这些表达广泛存在于自然语言中，且其含义往往无法通过简单的词义组合规则推导，正是检验模型「真理解」还是「假套路」的试金石 [4][5]。

ACL 2026 Oral｜语义推理如鲠在喉：大模型被「短语」难住了

SemanticQA 基于现有多个语义标注资源构建，这些资源在标注协议、难度分布及语义粒度上存在显著差异。该基准汇总了各任务来源的数据集、输入输出结构、测试样本数量及所涵盖的短语类型，从而展现了其规模与多样性：上千条的测试样本，覆盖检测、抽取与释义三类语义任务，且每个任务均采用统一的提示模板、句子上下文及输出格式。这种标准化却非同质化的设计旨在反映真实语义标注场景中固有的自然变异性，而非强行要求不同来源之间保持难度或标注一致性。因此，SemanticQA 适于展现这种异质性，但不适用于对短语类型进行绝对化的横向比较。

ACL 2026 Oral｜语义推理如鲠在喉：大模型被「短语」难住了

短语现象具有高度多样性，不同文献中使用的术语亦不统一。为保障基准的可复现性，SemanticQA 通过显式列出细粒度的子类别，避免将短语简单二分为「习语 vs. 非习语」的粗放式分类，从而支持研究者深入分析模型在特定语义子类上的性能表现。例如，模型可能对非组合习语完全失效，却在可分解习语上表现良好，这一差异有助于揭示模型究竟是依赖局部词义线索，还是基于整体的短语模式进行语义判断 [6][7]。

ACL 2026 Oral｜语义推理如鲠在喉：大模型被「短语」难住了

核心洞察：能力各有短板，优绩不代表真懂

SemanticQA 不只看模型会不会做，而是看它在抽取、分类和释义三种不同约束下是否一致。

ACL 2026 Oral｜语义推理如鲠在喉：大模型被「短语」难住了

研究发现，即便是当前的前沿模型，在这三项核心能力上也远未均衡发展：

分类任务：模型对粗粒度的语义判断尚可应付，但面对结构化的语义关系时，依然缺乏显著的归纳能力。
抽取任务：要求模型从句子中精确圈出目标短语，是最能反映「是否真看到」的操作。即使模型能在分类或释义任务中表现良好，其抽取准确率却往往十分低下。这种不一致表明，模型往往依赖上下文中的表面模式来猜短语边界，而非真正理解其「句法 vs. 语义」地位。
释义任务：生成的释义在短语结构、语义焦点方面与标准答案存在偏差。换句话说，模型擅长「说得像」，却不一定「说得对」。将释义与抽取、分类结果对照时，经常出现「能解释却抽不对」或「能分类却解释偏」的割裂现象，暴露出语义推理的不确定性。

ACL 2026 Oral｜语义推理如鲠在喉：大模型被「短语」难住了

以 GPT-5 为例：在习语分类（IED）五样本提示（5-Shot）设定下达到 85.4% 的分类准确率，但对应的习语抽取（IEE）仅为 78.7% 的精确匹配率，而习语释义（IEI）则只有 22.5% 的表面相似度（Meteor）。这种落差意味着：模型可以「猜对类别」，甚至「生成合理的解释」，但并不具备跨任务一致的语义表示。

更典型的是抽取任务。研究指出，抽取是最能暴露模型是否能看到「短语边界」的操作。多个模型在释义任务上取得较高的语义相似度（BERTScore），却在严格按照精确匹配的抽取任务中明显失效。例如：GPT-5 在名词复合词释义（NCI）中的语义相似度（BERTScore）可达到 96.8%，但同一模型在对应的 NCE 上的抽取准确率仅 79.0%。这说明当前模型更擅长生成语义上相似的话语，但无法以同样的熟练度实现稳定的短语抽取。

ACL 2026 Oral｜语义推理如鲠在喉：大模型被「短语」难住了

三项任务之间的不一致，正是语义理解能力欠缺的直接证据。一个真正理解短语语义的模型，应当在结构化输出（抽取）、离散决策（分类）和自由生成（释义）上保持行为兼容，而非只在某一种任务上取巧。

ACL 2026 Oral｜语义推理如鲠在喉：大模型被「短语」难住了

现实世界中的语义关系呈现出丰富且细粒度的特性，然而现有大多数基准仅测试粗粒度的语义分类（例如 2 至 4 个类别）。为考察模型是否具备真正的语义归纳能力，即：随着类别数增加，任务表现能否保持稳定，抑或出现急剧退化，相关实验结果极具启发性：前沿语言模型擅长在粗粒度、高频的语义区分任务上表现出较高的表面准确率，但一旦需要精细区分十多个细粒度语义类别，其归纳能力显著不足。特别指出：DeepSeek-R1 的分类准确率从 81.7% 下降到 35.4%，跌幅达到 46.3 个百分点；GPT-5 虽然更稳定，但在 16 分类的条件下仍明显退化。这一现象表明，现有模型更多依赖表层的统计共现信息，而非具备真正的语义推理能力 [9]。

ACL 2026 Oral｜语义推理如鲠在喉：大模型被「短语」难住了

由于本工作的研究跨度较长，我们还特地对 OpenAI 的四款代表性模型（GPT-3.5-Turbo、GPT-4、o3 和 GPT-5）进行了跨越三年的历时分析。结果显示，多数任务表现出了显著的偏序和排名一致性，例如在 LCI、NCI 和 IEI 等任务中，模型性能随代际更迭呈现出稳步递增的趋势（GPT-5 ≥ o3 > GPT-4 > GPT-3.5-Turbo），且 Few-Shot 提示普遍优于 Zero-Shot。

多米诺效应：上游一步错，下游步步错

现实应用中的语义处理往往是多步流程，例如先抽取短语，再对其进行释义或分类。SemanticQA 专门设计了组合推理任务来模拟这一场景。结果显示：

抽取错误直接拖垮下游：即使模型在孤立释义任务中表现尚可，一旦输入来自自身抽取（而非人工标注）的短语，其释义质量便大幅下降。上游哪怕只出现少量边界偏移，下游的语义重建也会明显偏离。
少样本无法补偿结构误差：增加演示样例能小幅提升抽取准确率，但对「条件式释义」（基于正确抽取的短语）提升有限。说明当前模型缺乏对中间结果的自我校验与纠错能力，难以构建稳健的语义处理流水线。
分类组合任务同样敏感：要求先抽取后分类时，端到端准确率相比独立分类任务显著下降，且类别越多下降越剧烈。这表明模型在传递结构化语义时存在明显的衰减。

ACL 2026 Oral｜语义推理如鲠在喉：大模型被「短语」难住了

组合推理实验进一步揭示了「上游一步错，下游步步错」的问题。在「先抽取 + 后释义」的顺序任务中：GPT-5 在词汇搭配的组合任务中，5-Shot 条件下抽取准确率为 41.3%，条件释义（即抽对后再解释）的 Meteor 相似度可达到 41.8%，但整体的 Meteor 相似度最终仅为 17.3%。

这些结果揭示了一个被原子任务评测长期掩盖的事实：语言模型在单点任务上也许能产生高光表现，但同时也很容易在多步的级联任务中土崩瓦解。语义推理，必须经得起流程化检验。

实践启示：不能只看会不会，更得看稳不稳

SemanticQA 的设计思路给当前的语言模型评估带来五点重要启示：

单指标、单任务无法衡量语义能力。模型可能在释义任务上得高分，却在抽取任务上一败涂地；在四分类上接近人类，却在十六分类时崩溃。不同任务暴露的是互补的失败模式，只有多操作、多约束的对照评估，才能照见模型语义表征的实际水平。
情境学习的收益因任务而异，不可一概而论。释义类任务从示例中获益稳定，抽取任务的表现却高度依赖示例与测试实例的结构匹配，一旦分布偏移，增加示例反而可能拖累性能。在实际部署中，示例的质量与任务适配，远比示例的数量更为关键。
规模扩展不等于语义深化，领域监督有时比能力涌现更可靠。分类粒度从二分类扩展到十六分类时，千亿参数大模型的性能衰减幅度却远超小规模监督模型。这表明大模型对细粒度语义关系的「理解」，更多依赖于统计模式的共现而非结构化表示，领域监督所带来的收益可能远比单纯扩大规模更扎实。
语义表征与任务格式深度耦合，而非操作无关。人类理解一个短语后，可以自然完成识别、归类与释义；但大模型却往往在多选分类中答对，却在开放抽取中失手，或在生成解释时产生语义漂移。当前模型习得更接近对任务格式的适应，而非真正意义上可迁移的短语语义表征。
鲁棒性与诊断价值，是评测的意义所在。模型一旦从单步任务进入多步串联流程，上游的识别错误便会显著拖累下游语义质量，这种脆弱性在单任务评测中几乎无从察觉。随着主流基准加速饱和，评测的核心价值不应是给模型打出一个排名总分，而是精准揭示能力断层在哪里、为何存在以及如何修复。

研究局限

本工作完稿于 2023 年，并于 2025 年进行修订和投稿录用。该诊断性评测基于单轮静态设计，在当时是合理的，但放到 2026 年的 Agent 语境下，它测的东西已经不够用了。Agent 不再是单轮推理，而是在长时运行：一步走偏，后面全部走偏，工具调用失败或推理错误被带入下一步、链路越长偏差越大导致掉入前缀陷阱，如蝴蝶效应般不可逆地叠加。因此，如何针对语言智能体进行动态自适应的评估，成为了当今更有价值的科学与实践问题。

静态 Evals 在 Agent 时代的根本性失效问题：

静态基准测的是能力截面，Agent 的风险在时间轴上，错误不是孤立的，它会被写入状态、沿链路传播叠加，第三步的幻觉在第七步才爆炸，而静态分数对此一无所知
分数相同的两个模型，执行轨迹可能天差地别：一个靠运气蒙对，一个扎扎实实地走对。当当前真正有价值的问题不是 Evals 分数是多少，而是：评估体系本身能不能动态进化，打分模型要被验证、任务要有生命周期、任务执行轨迹要作为审计入口、安全护栏要有一票否决权；
Evals 不是测试的升级，是 Agent 时代唯一可执行的产品定义方式，因为我们无法用 PRD 定义一个概率系统。

结语

语义推理不是黑盒系统里的灵光一现，而是可分解、可检验以及可追溯的系统能力。SemanticQA 通过操作对齐的设计，将（短语）语义理解这一古早难题重新带回研究前沿，并给出了一个清醒的判断：语言模型远未真正「懂语言」，至少在短语层面，它们有了很大的改进，但仍在摸索前行。这项工作的意义不仅在于指出不足，更在于提供了一套可操作、可复现的诊断工具，帮助社区朝着更稳健、更结构化的短语处理前沿迈进。

参考文献

[1] Shwartz and Dagan. Still a Pain in the Neck: Evaluating Text Representations on Lexical Composition. TACL 2019.

[2] Wei et al. Chain of Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022.

[3] Constant et al. Multiword Expression Processing: A Survey. Computational Linguistics 2017.

[4] Coil and Shwartz. From Chocolate Bunny to Chocolate Crocodile: Do Language Models Understand Noun Compounds? ACL Findings 2023.

[5] Espinosa-Anke et al. Evaluating Language Models for the Retrieval and Categorization of Lexical Collocations. EACL 2021.

[6] Chakrabarty et al. It’s Not Rocket Science: Interpreting Figurative Language in Narratives. TACL 2022.

[7] Pham et al. PiC: A Phrase-in-Context Dataset for Phrase Understanding and Semantic Search. EACL 2023.

[8] Ramisch et al. A Survey of MWE Identification Experiments: The Devil is in the Details. MWE Workshop 2023.

[9] Miletic and Schulte im Walde. Semantics of Multiword Expressions in Transformer-based Models: A Survey. TACL 2024.

[10] Zeng and Bhat. Getting BART to Ride the Idiomatic Train: Learning to Represent Idiomatic Expressions. TACL 2022.

文章来自于"机器之心"，作者 "刘洋和李鸿铭"。

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。

项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。

项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0