摘要
本发明适用机器人运动控制技术领域,提供了一种机器人技能学习方法,该方法包括:根据学习提示信息,利用大语言模型生成辅助奖励组件函数,根据由学习提示信息中的若干奖励组件函数和辅助奖励组件函数构成的奖励组件函数集合构建多分支价值网络,基于各价值分支的权重系数,利用多分支价值网络对策略网络进行迭代式的策略训练,直至策略网络的目标函数收敛,利用策略网络对机器人技能学习进行指导,从而通过结合大语言模型的智能决策能力和多分支价值网络的细粒度反馈,提高强化学习中的策略学习效率和整体性能,确保策略优化过程中能够适应不同的技能习得需求,能应对不同的环境以及复杂的机器人任务,提升了任务执行的准确性、精度以及效率。
技术关键词
策略
大语言模型
多分支
网络
机器人
学习方法
可读存储介质
学习装置
处理器
存储器
计算机
频率
决策
精度
参数
系统为您推荐了相关专利信息
智能预警方法
GRU神经网络
房车
车厢
发动机节气门开度
评价方法
图像
ResNet网络
特征提取模块
底层视觉特征
SPARQL查询
训练语料库
自然语言
半导体
语句
压力测试装置
高压开关柜
定位移动单元
神经网络模型
控制模块