一种基于在线强化学习和GRPO的图像编辑模型训练方法

正文

推荐专利

申请号：CN202511038215

申请日期：2025-07-28

公开号：CN120876294A

公开日期：2025-10-31

类型：发明专利

摘要

本发明涉及一种基于在线强化学习和GRPO的图像编辑模型训练方法，包括以下步骤：S1：采用ODE‑to‑SDE转换技术，将原本确定性的ODE流变为等价的SDE流，使得流匹配模型能够支持强化学习所需的随机采样探索，同时保持原有的边缘分布特性；S2：设置奖励模型方案，S3：基于奖励模型方案，采用无价值网络的策略梯度优化，不断优化图像编辑模型的参数，得到总目标函数。本发明在保证图像编辑质量的前提下，显著提高指令遵循准确性和训练效率。

技术关键词

模型训练方法大语言模型策略在线编辑离散化方法神经网络参数样本多模态指令噪声比率超参数速度适配器定义图像视觉

系统为您推荐了相关专利信息

基于物联网驱动的建筑环境动态调控方法及系统

动态调控方法调控策略物联网传感器热传导推理算法

一种机器学习辅助的醋酸反应速率预测模型训练方法、装置及预测方法

机器学习辅助地震反射系数预测模型训练方法醋酸训练集

一种拐杖糖边角料在线回收熔融重组设备及其使用方法

拐杖糖熔融模块红外传感器 Otsu算法不锈钢滤网

结合需求引导的交通列车运行图与客流控制协同优化方法

车站协同优化方法非线性整数规划城市轨道交通系统乘客等待时间

基于微调的大语言模型的智能合约漏洞检测方法及系统

智能合约漏洞大语言模型模型预训练扫描工具项目

一种基于在线强化学习和GRPO的图像编辑模型训练方法

站点导航

APP 下载