超越GPT-4o！华人团队新框架让Qwen跨领域推理提升10%，刷新12项基准测试

正文

资源拓展

2025-06-04 10:50

一项新的强化学习方法，直接让Qwen性能大增，GPT-4o被赶超！

来自加拿大滑铁卢大学与TikTok新加坡，M-A-P的华人团队提出了一种全新训练框架：General-Reasoner。

结果直接让Qwen系列大模型的跨领域推理准确率提升近10%，在多个基准测试中甚至超越GPT-4o。

超越GPT-4o！华人团队新框架让Qwen跨领域推理提升10%，刷新12项基准测试

上图显示出General-Reasoner在多项跨领域评测中显著提升基础模型推理能力。

当前，强化学习（RL）被视为提升模型推理能力的关键手段。其中，Zero-RL方法通过直接训练基础模型，已在数学和编程等结构化任务上展现出强大效果。

问题是，这些方法往往局限于数据丰富、答案结构清晰的领域，在面对物理、金融或人文社科等更广泛的领域时，模型难以有效泛化。

接下来看看研究团队是如何解决这些推理难题的？

目前的Zero-RL框架如SimpleRL通常聚焦于单一领域数据，采用简单的规则式答案验证，存在以下不足：

针对这些问题，General-Reasoner提出两个核心创新：

通过大规模网络爬取与严格筛选，创建了覆盖物理、化学、金融等多个领域约23万个高质量、可验证的推理问题。

为了支持更广泛的跨领域推理能力，研究团队构建了一个大规模、多样且高质量的可验证推理任务数据集。

数据最初来源于WebInstruct，其中包含约500万个从StackExchange和教育门户网站爬取的自然指令。这些数据虽然适用于一般的指令调优，但大部分缺乏可验证答案或推理结构。

研究人员追溯数据源网页提取问题-答案对，并剔除没有明确人类答案的问题以确保质量。

随后利用Gemini-1.5-Pro识别具有简洁答案的可验证问题，获得100万个候选问题。再通过Gemini-2.0-Flash进行元数据标注，并适当减少简单的数学问题以保持数据平衡。

进一步质量筛选时，研究人员使用Gemini-2.0-Flash生成8个候选答案：

最终的高质量示例用于训练此框架的模型验证器。

生成的数据集涵盖约23万道具有不同答案格式和主题的推理问题。

超越GPT-4o！华人团队新框架让Qwen跨领域推理提升10%，刷新12项基准测试

上图为WebInstruct-Verified数据生成过程以及最终答案种类和学科种类的分布

以仅有1.5B参数的小型生成式模型，取代传统规则式验证，大幅提高了不同领域答案的验证准确率。

传统的规则式验证器通常依赖严格匹配或符号比较进行答案判定，虽然适合数学任务，但在更广泛的推理领域存在明显不足，如匹配规则僵化，缺乏语义理解，难以适应复杂领域。

为克服这些局限，研究人员开发了一个紧凑的生成式模型验证器（General-Verifier）。此模型以仅1.5B参数，通过团队自建的数据集从Qwen2.5-Math-1.5B模型微调而成。

General-Verifier接收问题、标准答案和模型生成的答案后，生成一个推理过程，随后输出一个二元（对/错）判定结果，为强化学习提供准确且可解释的反馈信号。

实测显示，这种新型验证器与Gemini-2.0-Flash高度一致，并显著超越传统规则式方法，具有更高的鲁棒性与泛化能力。

超越GPT-4o！华人团队新框架让Qwen跨领域推理提升10%，刷新12项基准测试

△传统规则式答案验证与生成式模型验证的比较

团队以Qwen2.5/Qwen3系列模型（4B/7B/14B）为基础，进行了包括MMLU-Pro、GPQA、SuperGPQA、TheoremQA等12个基准测试，结果表明：

在跨领域任务中，General-Reasoner相比基础模型提升约10%。例如，基于Qwen2.5-7B-Base的General-Reasoner在MMLU-Pro的准确率达到58.9%，高于基础模型（47.7%）和指令模型（57.0%）；
在数学推理任务中，表现略优于专业的数学强化学习框架SimpleRL；
最优模型General-Reasoner-Qw3-14B在多个基准测试中可匹敌甚至超越GPT-4o。例如，General-Reasoner-Qwen3-14B在GPQA任务中的准确率达56.1%，在TheoremQA任务中达54.4%，均超越GPT-4o。

超越GPT-4o！华人团队新框架让Qwen跨领域推理提升10%，刷新12项基准测试