一种基于在线强化学习和GRPO的图像编辑模型训练方法

AITNT
正文
推荐专利
一种基于在线强化学习和GRPO的图像编辑模型训练方法
申请号:CN202511038215
申请日期:2025-07-28
公开号:CN120876294A
公开日期:2025-10-31
类型:发明专利
摘要
本发明涉及一种基于在线强化学习和GRPO的图像编辑模型训练方法,包括以下步骤:S1:采用ODE‑to‑SDE转换技术,将原本确定性的ODE流变为等价的SDE流,使得流匹配模型能够支持强化学习所需的随机采样探索,同时保持原有的边缘分布特性;S2:设置奖励模型方案,S3:基于奖励模型方案,采用无价值网络的策略梯度优化,不断优化图像编辑模型的参数,得到总目标函数。本发明在保证图像编辑质量的前提下,显著提高指令遵循准确性和训练效率。
技术关键词
模型训练方法 大语言模型 策略 在线 编辑 离散化方法 神经网络参数 样本 多模态 指令 噪声 比率 超参数 速度 适配器 定义 图像 视觉
系统为您推荐了相关专利信息
1
基于物联网驱动的建筑环境动态调控方法及系统
动态调控方法 调控策略 物联网传感器 热传导 推理算法
2
一种机器学习辅助的醋酸反应速率预测模型训练方法、装置及预测方法
机器学习辅助 地震反射系数 预测模型训练方法 醋酸 训练集
3
一种拐杖糖边角料在线回收熔融重组设备及其使用方法
拐杖糖 熔融模块 红外传感器 Otsu算法 不锈钢滤网
4
结合需求引导的交通列车运行图与客流控制协同优化方法
车站 协同优化方法 非线性整数规划 城市轨道交通系统 乘客等待时间
5
基于微调的大语言模型的智能合约漏洞检测方法及系统
智能合约漏洞 大语言模型 模型预训练 扫描工具 项目
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号