摘要
本发明涉及人工智能领域,可应用于金融科技、医疗健康等业务系统平台中,公开了视觉语言动作模型的强化微调方法、装置、设备及介质,包括:加载待微调的视觉语言动作模型,视觉语言动作模型用于根据视觉信息和语言指令操作机器人执行相应的动作任务;采集多条演示数据,通过演示数据对视觉语言动作模型进行离线强化学习,获得离线微调模型;将离线微调模型部署到实际环境中,控制机器人按任务重置策略与环境进行交互,获得探索轨迹与环境反馈;根据探索轨迹、环境反馈与演示数据对离线微调模型进行在线强化学习,获得微调后的视觉语言动作模型。通过分阶段的强化微调以及任务重置策略实现协同的模型微调,提高微调效果以确保机器人运行的可靠性。
技术关键词
离线
微调方法
视觉
轨迹
非易失性计算机可读存储介质
在线
机器人
计算机可执行指令
数据
权重策略
序列
动作策略
医疗健康
微调装置
处理器通信
业务系统
计算机设备
系统为您推荐了相关专利信息
神经网络算法
计算机执行指令
策略
资源分配方法
资源分配装置
精度评估方法
数据
场景类别
轨迹特征
视觉特征信息
消防信息管理系统
视频流
可见光图像
区域识别分析
场地环境