摘要
本申请提出一种基于强化学习的多模态大模型任务处理方法、装置及设备,采用多模态大模型,对多模态视觉任务数据生成G组响应,并对每组响应进行评分,得到奖励值,由奖励值标准化得到优势分数,以优势分数构建策略更新梯度,通过最大化期望奖励,调整模型参数,多轮迭代后,得到最终结果,其中,期望奖励目标函数包含期望计算项及KL散度约束,这样,采用群体相对策略优化,可通过比较候选策略的表现,来更新当前策略,有助于跳出局部最优;KL散度约束限制了策略更新幅度,防止模型在优化过程中发生剧烈变化,从而提升训练的稳定性;动态策略迭代允许模型在保持稳定性的基础上,根据学习进展,调整探索与利用的平衡,进一步确保策略优化的有效性和稳定性。
技术关键词
视觉
策略更新
格式
多模态
数据分布
电子设备
存储计算机程序
答案
存储器
处理器
定义
参数
文本
处理单元
有效性
动态
极值
图像
系统为您推荐了相关专利信息
自然语言
任务调度
闭环反馈优化
输配电
协同系统
深度神经网络
动态提取方法
声学特征
动态特征提取
音频
监测方法
组网
能耗优化方法
中继节点
施工现场环境