基于强化学习的多模态大模型任务处理方法、装置及设备

AITNT
正文
推荐专利
基于强化学习的多模态大模型任务处理方法、装置及设备
申请号:CN202510741926
申请日期:2025-06-05
公开号:CN120632683A
公开日期:2025-09-12
类型:发明专利
摘要
本申请提出一种基于强化学习的多模态大模型任务处理方法、装置及设备,采用多模态大模型,对多模态视觉任务数据生成G组响应,并对每组响应进行评分,得到奖励值,由奖励值标准化得到优势分数,以优势分数构建策略更新梯度,通过最大化期望奖励,调整模型参数,多轮迭代后,得到最终结果,其中,期望奖励目标函数包含期望计算项及KL散度约束,这样,采用群体相对策略优化,可通过比较候选策略的表现,来更新当前策略,有助于跳出局部最优;KL散度约束限制了策略更新幅度,防止模型在优化过程中发生剧烈变化,从而提升训练的稳定性;动态策略迭代允许模型在保持稳定性的基础上,根据学习进展,调整探索与利用的平衡,进一步确保策略优化的有效性和稳定性。
技术关键词
视觉 策略更新 格式 多模态 数据分布 电子设备 存储计算机程序 答案 存储器 处理器 定义 参数 文本 处理单元 有效性 动态 极值 图像
系统为您推荐了相关专利信息
1
陪伴机器人智能处理方法及设备
陪伴机器人 机器人摄像头 负荷 偏差 注意力
2
一种基于智能体的输配电生产任务协同系统及方法
自然语言 任务调度 闭环反馈优化 输配电 协同系统
3
一种基于深度神经网络的声学特征动态提取方法
深度神经网络 动态提取方法 声学特征 动态特征提取 音频
4
基于WAPI技术与MESH网络的智能化施工现场组网与监测方法
监测方法 组网 能耗优化方法 中继节点 施工现场环境
5
一种基于视觉与雷达融合的智能车多场景自主决策方法
自主决策方法 雷达 路段 红绿灯识别 智能车
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号