摘要
本发明公开了一种基于视觉‑语言模型的可泛化机器人奖励生成方法,包括:访问包含人类执行不同任务的视频和文本标签的人类数据集,采用视频‑语言对比学习预训练视频‑语言模型;收集机器人成功执行任务的数据和未成功执行任务的数据,构成机器人数据集;将失败视频输入视觉编码器中,以提取失败视频的视觉特征。随后进一步生成对应的失败提示;通过跨领域对比学习将机器人任务数据与人类任务数据对齐,同时改进视频‑语言对比学习,对齐视频和任务描述;训练视频‑语言模型,训练得到的模型将作为机器人奖励函数,将该奖励函数结合强化学习方法以生成任务执行的奖励值。利用本发明,可以提高机器人在多样化的环境中执行广泛的任务的成功率。
技术关键词
视频
生成方法
强化学习方法
收集机器人
人类
数据
视觉特征
文本编码器
预训练模型
标签
样本
定义
模式
指令
时序
算法
系统为您推荐了相关专利信息
自动驾驶系统
交通路口视频
智能驾驶车辆
行人识别
行人检测
对象
图像处理模型
图像生成方法
像素点
电子设备配置