0.6B VLM重塑AI修图推理流程,支持手机端侧部署,vivo+浙大出品

首页 AI资讯 AI技术研报 AI监管政策 AI产品测评 AI商业项目 arena全球大模型排行榜 AI产品热榜 AI 源力市场 AI专利库 AI需求对接 AI新闻日报
下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载
0.6B VLM重塑AI修图推理流程,支持手机端侧部署,vivo+浙大出品
AI技术研报 2026-06-15 09:21
+8964 阅读

如今手机拍照已成日常,后期修图是提升照片质感的关键。


但专业修图工具操作复杂,一键滤镜风格生硬,现有AI修图方案也存在难以端到端优化、模型庞大不适配移动端等问题。


为此,vivo BlueImage Lab团队、浙江大学计算机科学与技术学院AiXM实验室、之江实验室与中国科学院大学联合发布了一项新的研究工作VeraRetouch——


面向多任务推理式的照片影调和色彩“修图”,提出了一个轻量、全可微分、可移动端部署的修图框架。


0.6B VLM重塑AI修图推理流程,支持手机端侧部署,vivo+浙大出品


通过将0.6B视觉语言模型作为“修图大脑”,并设计全可微分的Retouch Renderer作为“修图执行器”,VeraRetouch能够把高层语言意图转化为低层像素级调整,在保持图像结构和细节的同时完成专业化色调与色彩优化。


让大模型真正“会修图”,而不只是会说怎么修


传统自动修图方法大多像一个黑盒:输入照片,输出结果,中间缺少明确的审美分析与调整逻辑。


后来的推理式修图方法引入多模态大模型,让模型能够分析照片问题、给出修图步骤,再调用外部工具执行调整。


这条路线更接近人类修图师的工作方式,但也带来一个核心瓶颈:外部修图软件通常不可微分。模型生成的参数能否真正带来更好的像素结果,很难通过端到端训练直接优化。


VeraRetouch的关键创新在于,它不再把专业修图工具当作外部黑盒,而是用一个全可微分的 Retouch Renderer替代传统软件中的调色与调光操作


这样一来,模型不仅能“推理出该怎么修”,还能通过图像监督直接学习“怎样修才真的好看”。


研究团队将修图空间拆解为三个相对独立的控制维度:


  • Lighting:曝光、阴影、高光等光照相关调整
  • Global Color:色温、色调、整体颜色倾向等全局色彩调整
  • Specific Color:针对红色、橙色、蓝色等特定颜色通道的精细调整


这种拆解方式与专业修图流程高度一致,也让模型的输出更可解释、更稳定。


0.6B VLM重塑AI修图推理流程,支持手机端侧部署,vivo+浙大出品△Retouch Encoder从参考图像对中提取光照、全局色彩和特定色彩控制latent,Retouch Renderer再将这些控制信号映射到像素级修图结果


三种任务:从“一键变好看”到“按你说的修”


VeraRetouch面向真实用户需求定义了三类修图任务。


0.6B VLM重塑AI修图推理流程,支持手机端侧部署,vivo+浙大出品


0.6B VLM重塑AI修图推理流程,支持手机端侧部署,vivo+浙大出品


0.6B VLM重塑AI修图推理流程,支持手机端侧部署,vivo+浙大出品



△VeraRetouch支持自动修图、风格修图与参数修图三类典型工作流,让用户可以快速从“这张图需要怎么修”理解到“模型正在做什么”。


第一类是Auto-Retouch


用户只需要输入一张照片,模型自动分析画面中的光影和色彩问题,并生成修图方案。这对应最常见的“一键优化”场景,但目标不是套滤镜,而是在保留原图内容的基础上提升整体观感。


第二类是Style-Retouch


用户可以用自然语言描述想要的风格,比如“温暖秋日感”“冷调日系透明感”“暗调情绪胶片风”。


模型会结合图像内容和文本意图,推理出具体的调色方向,并生成符合风格描述的结果。


第三类是Param-Retouch


模型可以根据明确的参数指令进行修图,例如对比度、曝光、色温、饱和度等。


换句话说,它既能“自己看图修”,也能“听懂你想要什么风格”,还能“按参数执行”。


数据问题怎么解决?构建百万级专业修图数据集


高质量修图模型离不开高质量数据。然而,专业修图数据非常稀缺。已有数据集规模有限,且很难覆盖真实用户复杂多样的风格需求。


为此,研究团队构建了AetherRetouch-1M+,这是一个百万级多任务专业修图数据集,覆盖Auto-Retouch、Style-Retouch与Param-Retouch三类场景。


0.6B VLM重塑AI修图推理流程,支持手机端侧部署,vivo+浙大出品△AetherRetouch-1M+ 覆盖自动修图、风格修图与参数修图三类任务,为多任务推理式修图提供大规模训练数据


对于自动修图,团队采用了一个很有意思的“反向退化”思路:


先从高质量照片出发,把它们视作“已修好”的结果,再基于专家修图对中的色彩与光照变化,反向生成更像原始照片的“未修图”版本。


这样可以在保留真实内容结构的同时,构造大量具有真实缺陷的训练样本。


对于风格修图,团队整理了5030个在线风格预设,覆盖11个大类和193个细分子类,并借助视觉语言模型为图像匹配合适风格,再生成多样化用户指令。


对于参数修图,团队围绕光照、全局色彩和特定色彩三类操作随机采样参数组合,生成可用于精确控制训练的数据。


更进一步,数据集中还加入了结构化推理过程:模型不仅学习“输入到输出”,还学习为什么要这样调整,包括画面内容分析、原图问题诊断,以及对应的修图计划。


0.6B VLM重塑AI修图推理流程,支持手机端侧部署,vivo+浙大出品△AetherRetouch-1M+的数据构建流程,包括自动修图的反向退化、风格预设匹配与参数采样三条数据生成路径


技术核心:小模型,也能做专业推理修图


VeraRetouch基于FastVLM-0.5B构建。输入图像经过视觉编码器转成视觉token,用户指令经过文本编码器转成prompt token,随后多模态语言模型生成结构化推理内容。


0.6B VLM重塑AI修图推理流程,支持手机端侧部署,vivo+浙大出品△VeraRetouch整体框架。输入图像与用户指令经过轻量VLM生成结构化推理与控制latent,再由Retouch Renderer输出最终修图结果


为了让推理结果真正驱动像素调整,研究团队设计了专门的retouch tokens,分别对应光照、全局色彩和特定色彩三个控制维度。


模型最后一层hidden state会被送入MLP Retouch Adaptor,对齐到Retouch Renderer可理解的连续控制latent,再由Retouch Renderer输出最终修图结果。


这套设计带来两个重要优势。


首先,它避免了模型推理时对外部修图软件的依赖。整个修图过程可以在模型内部完成,并支持端到端像素级训练。


其次,它比大型生成式图像编辑模型更轻量


VeraRetouch的总参数规模约为0.63B,远小于Flux.1 Kontext、Qwen-Image-2509、MonetGPT、JarvisArt等基线方法,更接近移动端实际部署需求。


为了进一步提升审美表现,团队还提出了DAPO-AE后训练策略,通过格式奖励、图像相似性奖励和审美奖励,引导模型在保持指令一致性的同时生成更自然、更符合人类美学偏好的修图结果。


实验结果:质量、速度和可部署性同时提升


实验显示,VeraRetouch在多个基准上取得了领先表现。


在FiveK-Bench自动修图任务上,VeraRetouch-DAPO-AE达到26.85 dB PSNR,相比Flux.1 Kontext提升1.08 dB,同时在SSIM、LPIPS和多项直方图一致性指标上表现突出。


0.6B VLM重塑AI修图推理流程,支持手机端侧部署,vivo+浙大出品


在Aether-Bench的风格修图任务中,VeraRetouch在PSNR、SSIM、LPIPS、DISTS、GMSD和Texture Distortion等指标上均取得最优或领先表现,说明它不仅能跟随风格指令,也能更好地保留原图结构与纹理细节。


在参数修图任务中,VeraRetouch的PSNR达到30.18 dB,明显超过微调后的扩散模型基线,展现出对精确修图参数的强执行能力。


然而作者也在论文中提到,由于构造训练数据时采用联合高斯分布进行参数采样,模型在执行分布外参数时可能会出现一些不一致的情况。


0.6B VLM重塑AI修图推理流程,支持手机端侧部署,vivo+浙大出品


从三个任务视频可以看到,VeraRetouch的修图结果并不是简单改变整体滤镜强度,而是会根据任务类型分别处理画面亮度、色彩倾向、局部颜色与风格氛围。


对于自动修图,它更强调自然观感;对于风格修图,它更关注语言描述与视觉风格的一致性;对于参数修图,它则强调调整结果的可控性和可复现性。


速度方面,VeraRetouch在H20 GPU上处理一张512p图像仅需6.90秒,快于Flux.1 Kontext的16.78秒和JarvisArt的14.31秒。


更重要的是,模型在消费级设备上也具备部署潜力:未经量化的版本在MacBook Air M4上约7.46秒,在iPhone 16 Pro上约13.56秒即可完成自动修图。


用户研究同样验证了这一点。38名参与者的盲评结果显示,VeraRetouch在视觉美感、指令一致性和纹理保持方面都获得了最高评分。


DAPO-AE后训练也带来更明显的人类偏好提升,在对比实验中获得61.62%的偏好率。


当然,论文也指出,当前模型在局部修图能力上仍有提升空间。


未来若进一步引入像素级mask机制,VeraRetouch有望支持更灵活的区域化编辑,例如只提亮人物面部、只调整天空色彩,或只优化背景氛围。


关于作者


vivo BlueImage Lab是蓝图影像创新实验室,主要负责移动影像算法创新,包括图像/视频处理、图像/视频交互、图像/视频增强、多模态理解大模型等方面的技术前沿探索。


致力于不断提升vivo移动影像的算法能力,使用户能够拍摄出更加清晰、美观的照片和视频。同时积极探索增强现实、具身智能等新兴技术领域的应用,努力为用户提供更加丰富和便捷的影像体验。


论文链接:https://arxiv.org/pdf/2604.27375

项目主页:https://apollo-yi.github.io/VeraRetouch/

代码链接:https://github.com/OpenVeraTeam/VeraRetouch


文章来自于"量子位",作者 "vivo BlueImage Lab"。

1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
Flux

【部分开源免费】FLUX是由Black Forest Labs开发的一个文生图和图生图的AI绘图项目,该团队为前SD成员构成。该项目是目前效果最好的文生图开源项目,效果堪比midjourney。

项目地址:https://github.com/black-forest-labs/flux

在线使用:https://fluximg.com/zh

3
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案