基于强化学习的多模态大模型任务处理方法、装置及设备

正文

推荐专利

申请号：CN202510741926

申请日期：2025-06-05

公开号：CN120632683A

公开日期：2025-09-12

类型：发明专利

摘要

本申请提出一种基于强化学习的多模态大模型任务处理方法、装置及设备，采用多模态大模型，对多模态视觉任务数据生成G组响应，并对每组响应进行评分，得到奖励值，由奖励值标准化得到优势分数，以优势分数构建策略更新梯度，通过最大化期望奖励，调整模型参数，多轮迭代后，得到最终结果，其中，期望奖励目标函数包含期望计算项及KL散度约束，这样，采用群体相对策略优化，可通过比较候选策略的表现，来更新当前策略，有助于跳出局部最优；KL散度约束限制了策略更新幅度，防止模型在优化过程中发生剧烈变化，从而提升训练的稳定性；动态策略迭代允许模型在保持稳定性的基础上，根据学习进展，调整探索与利用的平衡，进一步确保策略优化的有效性和稳定性。

技术关键词

视觉策略更新格式多模态数据分布电子设备存储计算机程序答案存储器处理器定义参数文本处理单元有效性动态极值图像

系统为您推荐了相关专利信息

陪伴机器人智能处理方法及设备

陪伴机器人机器人摄像头负荷偏差注意力

一种基于智能体的输配电生产任务协同系统及方法

自然语言任务调度闭环反馈优化输配电协同系统

一种基于深度神经网络的声学特征动态提取方法

深度神经网络动态提取方法声学特征动态特征提取音频

基于WAPI技术与MESH网络的智能化施工现场组网与监测方法

监测方法组网能耗优化方法中继节点施工现场环境

一种基于视觉与雷达融合的智能车多场景自主决策方法

自主决策方法雷达路段红绿灯识别智能车

基于强化学习的多模态大模型任务处理方法、装置及设备

站点导航

APP 下载