人类在学习新知识时,总是遵循从“记忆事实”到“理解概念”再到“掌握技能”的认知路径。
AI是否也建立了“先记住单词,再理解原理,最后练习应用”的这种知识结构呢?
测评一下就知道了!
东南大学联合马克斯·普朗克信息研究所、上海交通大学、阶跃星辰、加州大学伯克利分校与加州大学默塞德分校的研究团队,共同提出了KRIS-Bench(Knowledge-based Reasoning in Image-editing Systems Benchmark)。
首创地从知识类型的视角,对图像编辑模型的推理能力进行系统化、精细化的评测。
借鉴布鲁姆认知分类与教育心理学中的分层教学理念,KRIS-Bench让AI在事实性知识(Factual Knowledge)、概念性知识(Conceptual Knowledge)与程序性知识(Procedural Knowledge)三大层面上,逐步接受更深入、更复杂的编辑挑战。
基于认知分层的三大知识范畴
KRIS-Bench在每个类别下又细化出7大推理维度、22种典型编辑任务,从“物体计数变化”到“化学反应预测”、“多元素合成”等,覆盖了从初级到高级的全谱系难度。
四维度自动化评估指标
借助多模态大模型与人工校准,KRIS-Bench首创从四个维度对编辑输出打分:
深度知识任务还附带手工知识提示,以帮助评判模型是否真正“理解”了背后的原理。
10款模型全面测试
KRIS-Bench评估了3款闭源(GPT-Image-1、Gemini 2.0 Flash、Doubao)和7款开源(OmniGen、Emu2、BAGEL、Step1X-Edit、AnyEdit、MagicBrush、InstructPix2Pix)模型。
注释,不超过 140 字(可选)
借助KRIS-Bench,团队正推动图像编辑模型脱离单纯的“像素搬运”,向具备人类般认知能力的“视觉智者”迈进。
未来,团队期待编辑不再是“换换颜色”“挪挪位置”这么简单,而是在内部植入物理、化学、社会常识与因果推理,真正让 AI 明白“为什么会这样”和“接下来会怎样”。
感兴趣的朋友可以戳下方链接获取更多细节
项目地址:https://yongliang-wu.github.io/kris_bench_project_page/
论文地址:https://arxiv.org/abs/2505.16707
代码地址:https://github.com/mercurystraw/Kris_Bench
文章来自公众号“量子位”,作者“KRIS-Bench团队”