基于迭代强化学习的VLA模型优化方法、装置、设备及介质

正文

推荐专利

申请号：CN202510838562

申请日期：2025-06-20

公开号：CN120764720A

公开日期：2025-10-10

类型：发明专利

摘要

本发明公开一种基于迭代强化学习的VLA模型优化方法、装置、设备及介质，涉及人工智能领域，使得机器人能够准确执行金融、保险及医疗场景中的相关任务，包括：对预设的初始VLA模型进行监督学习预训练，得到预训练VLA模型，预训练VLA模型包括动作解码器；冻结预训练VLA模型中除了动作解码器之外的所有参数，对动作解码器进行在线强化学习，更新动作解码器的参数，得到第一优化VLA模型；将第一优化VLA模型发送给服务端，由服务端解冻第一优化VLA模型的所有参数，并对第一优化VLA模型进行监督学习训练，更新第一优化VLA模型的参数，得到第二优化VLA模型。本发明能有效克服VLA模型在强化学习优化过程中的不稳定性，并突破全参数微调带来的计算资源与实时性瓶颈。

技术关键词

模型优化方法解码器轨迹机器人图像特征向量参数服务端指令样本生成训练数据强化学习算法计算机设备图像编码器医疗场景信息编码优化装置在线处理器

系统为您推荐了相关专利信息

一种智能齿轮组件贴合系统

智能齿轮贴合系统轨迹预测模型决策溅射技术

一种巡检机器人行走防撞设备

气囊袋旋转驱动座防撞设备伸缩机构驱动主机

基于大模型的车组装卸货系统、方法、设备及存储介质

分拣机器人承载拖车链条输送线装卸货机器人卸货系统

铁路货车轴承自动化退卸装置

铁路货车轴承轴承退卸机退卸装置移栽机械手清洁设备

基于人体足弓的仿人机器人足部

机器人足部金属板弹性连杆人体立板

基于迭代强化学习的VLA模型优化方法、装置、设备及介质

站点导航

APP 下载