两名本科生，半年5个顶会！CVPR斩获最佳学生论文提名

AI资讯 2026-06-06 17:50

+8923 阅读

CVPR 2026颁奖了！

今年CVPR在丹佛举办，共收到16092篇投稿，录用4090篇，录用率25.42%。

刚刚，组委会公布了全部获奖名单。

两名本科生，半年5个顶会！CVPR斩获最佳学生论文提名

最佳论文颁给了DeepMind团队的D4RT，最佳学生论文颁给了清华+微软联合团队的TRELLIS.2。

然后是最佳学生论文荣誉提名。

一作Liangsi Lu，广东工业大学。通讯作者Yang Shi，广东工业大学。

两个人都是本科在读。

两名本科生，半年5个顶会！CVPR斩获最佳学生论文提名

最佳学生论文提名

一行公式干翻多步推理

论文题目：ChordEdit: One-Step Low-Energy Transport for Image Editing

作者：卢梁司（广东工业大学，一作）、Xuhang Chen（惠州学院）、Minzhe Guo（广东工业大学）、Shichu Li（深圳大学）、Jingchao Wang（北京大学）、Yang Shi（广东工业大学，通讯作者）

两名本科生，半年5个顶会！CVPR斩获最佳学生论文提名

两个本科生，组队登顶会

这篇ChordEdit的一作卢梁司（Liangsi Lu）和通讯作者Yang Shi，都是广东工业大学本科在读生。

卢梁司来自数学与统计学院，专业是信息与计算科学，研究方向是表示学习和视觉生成。

在他看来，视觉是人与世界交互的高带宽接口，视觉表示可以捕捉到文本无法描述的规律，帮助AI与人类共同发现物理法则、学习鲁棒的世界模型。

基于这个方向，他做了RLSTG（建模真实世界非欧几何的连续神经动力系统）和ChordEdit（高效稳定地增强生成模型抓取真实语义的编辑框架）。

Yang Shi来自计算机学院，预计2027年毕业，研究方向是计算机视觉和数据挖掘。

两个不同学院的本科生，组成了搭档。

两名本科生，半年5个顶会！CVPR斩获最佳学生论文提名

然后他们半年内交出了这样一张成绩单。

Yang Shi的个人主页显示，截至目前他以一作或sole通讯作者身份，入选了5个顶会：

CVPR 2026（ChordEdit，sole通讯，最佳学生论文提名）
ICML 2026（sole通讯，图像编辑语义粒度导航）
KDD 2026（一作，图上的过度挤压问题）
ACL 2026（一作，多模态推理错误检测基准）
WWW 2026（sole通讯，黎曼液态时空图网络）

这些工作横跨图像编辑、图神经网络、多模态推理、数据挖掘四个完全不同的方向，从视觉生成到时空图建模，再一路到VLM评测。

问题有多棘手

回到CVPR 2026这篇论文。

如今，一步式文生图模型（SD-Turbo、SwiftBrush这类）已经把生成速度拉到了极限，但速度快的代价是，这类模型做图像编辑的时候几乎不能用。

现有的training-free编辑方法（FlowEdit、Direct Inversion这些），原理上都依赖多步推理来平均掉轨迹中的不稳定性。强行压到一步，画面崩掉。物体扭曲变形，背景乱飘，编辑区和非编辑区的一致性完全丧失。

总结来说就是，一步推理意味着你必须沿着一条极其粗糙的路径，一大步迈到目标位置。路径越粗糙，轨迹能量越高，结果越不可控。

这个问题不是调参能解决的，是数学层面的结构性缺陷。

两名本科生，半年5个顶会！CVPR斩获最佳学生论文提名

解法从哪来

卢梁司的解法，来自一套跨越两个世纪的数学。

最优传输问题最早由法国数学家Monge在1781年提出，之后经历了Kantorovich在1940年代的线性规划松弛、Brenier在1991年的二次代价求解。

到2000年，Benamou和Brenier给出了动态最优传输的流体力学形式，也就是ChordEdit直接依赖的框架。

具体来说，ChordEdit把图像编辑重新定义为源分布（原图+原始prompt）和目标分布（原图+编辑后prompt）之间的传输问题。

朴素方法直接拿两个漂移场的差值做编辑，单步推理下噪声极大。ChordEdit则把这个差值场在两个相邻时间点的观测做加权平均，得到一个低能量的Chord Control Field。

这个操作相当于一个时间维度上的平滑算子。漂移场被平滑之后，方差被压下来，能量降下来，天然就适合用一步积分走完全程。

两名本科生，半年5个顶会！CVPR斩获最佳学生论文提名

整个方法的核心，浓缩成一个等式（Eq. 4.5），一行加权平均。

Jensen不等式保证能量收缩，平滑后的编辑场方差更低，单步积分的离散化误差随之压缩。

不需要训练。不需要反演。不需要额外的掩码网络。不需要对模型做任何修改。

两名本科生，半年5个顶会！CVPR斩获最佳学生论文提名

这篇论文总共33页，光附录就写了25页，全是数学证明。从能量为什么会收缩、误差界怎么推、到单步积分为什么能稳定收敛，一路证到底。

消融实验部分则直接可视化了两种编辑场的能量分布。

朴素方法的编辑场能量高且不均匀，对应的就是背景被摧毁、物体变形的区域。ChordEdit的编辑场能量低且平稳，非编辑区域几乎零扰动。

两名本科生，半年5个顶会！CVPR斩获最佳学生论文提名

一块消费级显卡跑完

ChordEdit的全部实验，跑在一块2018年发布的NVIDIA Titan 24GB上。推理时显存占用仅7GB。

对比之下，同赛道的SwiftEdit需要15GB，而且还得额外训练一个反演网络。ChordEdit连训练都省了。

速度方面更夸张。比FlowEdit快19倍，比Direct Inversion快208倍。

两名本科生，半年5个顶会！CVPR斩获最佳学生论文提名

用户研究中，42.5%的参与者在编辑语义准确性上选择ChordEdit，48.3%在背景保持上选择ChordEdit，均为压倒性优势。

而且这个方法是model-agnostic的，SD-Turbo能用，SwiftBrush-v2也能用，换模型不需要改代码、不需要重新训练、不需要调架构。真正的即插即用。

两名本科生，半年5个顶会！CVPR斩获最佳学生论文提名

从演示效果看，ChordEdit可以一步完成horse→unicorn、fall→spring、ground→snow等语义编辑，编辑区域跟随prompt变化，非编辑区域保持不变。

这就是低能量传输场的效果，编辑路径足够平滑，非编辑区域几乎零扰动。

两名本科生，半年5个顶会！CVPR斩获最佳学生论文提名

从16092篇投稿里，74篇进入最佳论文候选名单（Top 0.45%）。

最终ChordEdit拿到了最佳学生论文提名（Top 0.03%），同时也是Oral。

两名本科生，半年5个顶会！CVPR斩获最佳学生论文提名

项目地址：https://chordedit.github.io

开源地址：https://github.com/ChordEdit/ChordEdit

论文地址：https://arxiv.org/pdf/2602.19083

最佳论文：D4RT

论文题目：Efficiently Reconstructing Dynamic Scenes One D4RT at a Time

作者：Chuhan Zhang*、Guillaume Le Moing*、Skanda Koppula*°、Ignacio Rocco*、Liliane Momeni*、Junyu Xie°¹、Shuyang Sun*、Rahul Sukthankar*、Joëlle K. Barral*、Raia Hadsell*、Zoubin Ghahramani*、Andrew Zisserman*°、Junlin Zhang*、Mehdi S. M. Sajjadi*²

机构：*谷歌DeepMind、°伦敦大学学院、°牛津大学

获奖理由：一种优雅且高效的方法，统一了深度估计、相机位姿、3D点追踪和4D点云的推断，结果惊艳。

两名本科生，半年5个顶会！CVPR斩获最佳学生论文提名

传统的4D重建方法要么需要为每个任务单独设计解码器，要么要对每一帧做密集解码，计算量极大。

D4RT绕开了这两个瓶颈，设计了一个统一的解码接口，可以独立查询空间和时间中任意一个点的3D位置，不需要逐帧密集处理。

这让整个方法既轻量又可扩展，在多个4D重建基准上全面超越了此前的SOTA。

作者团队阵容强大，Raia Hadsell是DeepMind VP级研究员，Zoubin Ghahramani是DeepMind首席科学家，Andrew Zisserman是牛津大学VGG组创始人。一作Chuhan Zhang此前也在DeepMind从事动态场景重建研究。

最佳学生论文：TRELLIS.2

论文题目：Native and Compact Structured Latents for 3D Generation

作者：Jianfeng Xiang¹²、Xiaoxue Chen¹*、Sicheng Xu²、Ruicheng Wang³²*、Zelong Lv³²*、Yu Deng²、Hongyuan Zhu⁴、Yue Dong²、Hao Zhao¹、Nicholas Jing Yuan⁴、Jiaolong Yang²

机构：¹清华大学、²微软研究院、³中国科学技术大学、⁴微软AI（*为实习期间完成）

获奖理由：一种稀疏、无场的潜在体素表示，在一个开源流水线中统一了开放、非流形、封闭和半透明3D资产的带纹理生成，为几何与外观编码树立了新标准。

两名本科生，半年5个顶会！CVPR斩获最佳学生论文提名

技术上，TRELLIS.2的核心是一种叫O-Voxel的「全能体素」结构。相比于传统的3D表示方法，O-Voxel采用的是稀疏体素同时编码几何和外观信息（包括PBR材质参数），不需要依赖多视角2D图像特征的间接监督。

在此基础上，团队设计了Sparse Compression VAE做高压缩率的潜空间编码，然后训练了一个4B参数的flow-matching生成模型。

一作Jianfeng Xiang来自清华大学，工作在Microsoft Research实习期间完成。通讯作者Jiaolong Yang是MSRA的资深研究员，长期深耕3D视觉方向。整个流水线已开源（microsoft/TRELLIS.2）。

最佳论文荣誉提名（2篇）

论文题目：NitroGen: An Open Foundation Model for Generalist Gaming Agents

作者：Loïc Magne¹*、Anas Awadalla¹²*、Guanzhi Wang¹³*†、Yinzhen Xu¹、Joshua Belofsky⁴、Fengyuan Hu¹、Joohwan Kim¹、Ludwig Schmidt²、Georgia Gkioxari³、Jan Kautz¹、Yisong Yue³†、Yejin Choi¹²†、Yuke Zhu¹⁵†、Linxi Fan¹†

机构：¹英伟达、²斯坦福大学、³加州理工学院、⁴芝加哥大学、⁵得克萨斯大学奥斯汀分校

获奖理由：一个4万小时、1000款游戏的数据集，配套评估模拟器和视觉到动作游戏Agent基础模型，打开了新的研究方向。

两名本科生，半年5个顶会！CVPR斩获最佳学生论文提名

作者阵容集结了多个领域的顶尖学者。Yejin Choi是ACL 2022主席、MacArthur天才奖得主。Jan Kautz是NVIDIA VP Research。Linxi Fan（范麟熙）是NVIDIA高级研究科学家，此前因MineDojo项目获NeurIPS 2022 Outstanding Paper。

两名本科生，半年5个顶会！CVPR斩获最佳学生论文提名

论文题目：SAM 3D: 3Dfy Anything in Images

作者：Xingyu Chen*、Fu-Jen Chu*、Pierre Gleize*、Kevin J Liang*、Alexander Sax*、Hao Tang*、Weiyao Wang*、Michelle Guo、Thibaut Hardin、Xiang Li、Aohan Lin、Jiawei Lin、Ziqi Ma、Anushka Sagar、Bowen Song*、Xiaodong Wang、Jianing Yang*、Bowen Zhang*、Piotr Dollár†、Georgia Gkioxari†、Matt Feiszli‡、Jitendra Malik‡⁺

机构：Meta超级智能实验室（*核心贡献者、†项目负责人、‡同等贡献）

获奖理由：从杂乱的野外单张图片中重建3D物体模型的重大进展，并提供了可扩展的数据采集流水线。

两名本科生，半年5个顶会！CVPR斩获最佳学生论文提名

这篇背后站着Meta超级智能实验室的全明星阵容。Jitendra Malik是UC Berkeley的CV泰斗级人物，Piotr Dollár是Meta Research的核心负责人之一，Georgia Gkioxari在今年的NitroGen中也出现了，同时入围两篇Best Paper候选。

时间检验奖

ResNet和YOLO，十年后回来领奖

今年的Longuet-Higgins Test of Time Award颁给了两篇十年前的CVPR 2016经典，ResNet和YOLO。

论文题目：Deep Residual Learning for Image Recognition

作者：何恺明、张祥雨、任少卿、孙剑，微软研究院

两名本科生，半年5个顶会！CVPR斩获最佳学生论文提名

这篇提出了残差连接，让深度网络的训练成为可能。在此之前，网络堆到几十层就开始退化，梯度消失是一堵墙。ResNet用一根跳线绕过了这堵墙，152层的网络跑起来比浅层网络还稳。

2015年ImageNet五项第一，错误率3.57%，远低于人类水平（约5.1%）。

十年后回头看，ResNet的残差连接思想已经渗透到了几乎所有的深度学习架构里。从Transformer到扩散模型，跳跃连接是最基础的基础设施之一。

两名本科生，半年5个顶会！CVPR斩获最佳学生论文提名

Google Scholar上超过32万次引用

论文题目：You Only Look Once: Unified, Real-Time Object Detection

作者：Joseph Redmon、Santosh Divvala、Ross Girshick、Ali Farhadi，华盛顿大学

两名本科生，半年5个顶会！CVPR斩获最佳学生论文提名

YOLO把目标检测从两阶段流程（先提候选框再分类）压缩成了单阶段的端到端预测，一次前向传播完成定位和分类。速度从秒级拉到了毫秒级，真正让目标检测可以实时运行。

十年过去，YOLO已经迭代到了第11代，仍然是工业界实时检测的首选方案。从自动驾驶到安防监控到工厂质检，YOLO的后代无处不在。

参考资料：

https://chordedit.github.io

https://luliangsi.github.io

https://cnshiyang.github.io

https://cvpr.thecvf.com/Conferences/2026/News/Technical_Program

https://github.com/SkalskiP/top-cvpr-2026-papers

文章来自于微信公众号 "新智元"，作者 "新智元"

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。

项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0