基于迭代强化学习的VLA模型优化方法、装置、设备及介质

AITNT
正文
推荐专利
基于迭代强化学习的VLA模型优化方法、装置、设备及介质
申请号:CN202510838562
申请日期:2025-06-20
公开号:CN120764720A
公开日期:2025-10-10
类型:发明专利
摘要
本发明公开一种基于迭代强化学习的VLA模型优化方法、装置、设备及介质,涉及人工智能领域,使得机器人能够准确执行金融、保险及医疗场景中的相关任务,包括:对预设的初始VLA模型进行监督学习预训练,得到预训练VLA模型,预训练VLA模型包括动作解码器;冻结预训练VLA模型中除了动作解码器之外的所有参数,对动作解码器进行在线强化学习,更新动作解码器的参数,得到第一优化VLA模型;将第一优化VLA模型发送给服务端,由服务端解冻第一优化VLA模型的所有参数,并对第一优化VLA模型进行监督学习训练,更新第一优化VLA模型的参数,得到第二优化VLA模型。本发明能有效克服VLA模型在强化学习优化过程中的不稳定性,并突破全参数微调带来的计算资源与实时性瓶颈。
技术关键词
模型优化方法 解码器 轨迹 机器人 图像特征向量 参数 服务端 指令 样本 生成训练数据 强化学习算法 计算机设备 图像编码器 医疗场景 信息编码 优化装置 在线 处理器
系统为您推荐了相关专利信息
1
一种智能齿轮组件贴合系统
智能齿轮 贴合系统 轨迹预测模型 决策 溅射技术
2
一种巡检机器人行走防撞设备
气囊袋 旋转驱动座 防撞设备 伸缩机构 驱动主机
3
基于大模型的车组装卸货系统、方法、设备及存储介质
分拣机器人 承载拖车 链条输送线 装卸货机器人 卸货系统
4
铁路货车轴承自动化退卸装置
铁路货车轴承 轴承退卸机 退卸装置 移栽机械手 清洁设备
5
基于人体足弓的仿人机器人足部
机器人足部 金属板 弹性连杆 人体 立板
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号