摘要
本发明涉及一种认知大模型在环监督的机器人强化学习训练方法,利用认知大模型在环监督方法闭环训练强化学习模型至强化学习模型收敛,引入认知大模型在环监督方法对强化学习模型的训练过程进行优化,通过任务的完成度以及与任务目标的偏离程度判定是否需要介入强化学习训练,针对不同的训练场景与任务无需使用专家知识进行复杂奖励函数设计,且无需依赖大量复杂交互,加速了机器人的训练过程,实现了机器人灵巧技能学习。
技术关键词
学习训练方法
强化学习模型
机器人
强化学习策略
视觉
强化学习算法
文本
决策
训练场景
指令
掩膜
关键词
残差网络
数据
闭环
表达式
进程
因子