摘要
本发明公开一种基于迭代强化学习的VLA模型优化方法、装置、设备及介质,涉及人工智能领域,使得机器人能够准确执行金融、保险及医疗场景中的相关任务,包括:对预设的初始VLA模型进行监督学习预训练,得到预训练VLA模型,预训练VLA模型包括动作解码器;冻结预训练VLA模型中除了动作解码器之外的所有参数,对动作解码器进行在线强化学习,更新动作解码器的参数,得到第一优化VLA模型;将第一优化VLA模型发送给服务端,由服务端解冻第一优化VLA模型的所有参数,并对第一优化VLA模型进行监督学习训练,更新第一优化VLA模型的参数,得到第二优化VLA模型。本发明能有效克服VLA模型在强化学习优化过程中的不稳定性,并突破全参数微调带来的计算资源与实时性瓶颈。
技术关键词
模型优化方法
解码器
轨迹
机器人
图像特征向量
参数
服务端
指令
样本
生成训练数据
强化学习算法
计算机设备
图像编码器
医疗场景
信息编码
优化装置
在线
处理器
系统为您推荐了相关专利信息
分拣机器人
承载拖车
链条输送线
装卸货机器人
卸货系统
铁路货车轴承
轴承退卸机
退卸装置
移栽机械手
清洁设备