摘要
本发明公开了一种机器人运动控制调优方法、装置、设备和介质,该方法通过输入自然语言形式的任务描述、机器人状态信息、历史执行轨迹和环境反馈信息至预置的大语言模型中,通过所述大语言模型执行:根据所述任务描述选择机器人的目标运动策略;当检测到所述机器人任务失败或动作异常时,重构用于控制所述机器人的深度强化学习控制器的奖励函数;当机器人状态存在异常时,对所述深度强化学习控制器的参数进行调优,该方法显著提升了机器人在高风险、高温、高复杂度场景下的运动稳定性、任务完成效率及策略适应性,增强了机器人在动态环境中的自适应调优能力和异常恢复能力。
技术关键词
机器人运动控制
深度强化学习
调优方法
机器人状态信息
大语言模型
自然语言
策略
控制器
语义
生成机器人
重构
可读存储介质
参数
轨迹
处理器
异常信息
程序
输入模块
系统为您推荐了相关专利信息
信息推荐方法
大语言模型
列表
标签
信息检索技术
大语言模型
对话生成方法
文本
心理量表
对话生成系统
精准广告投放方法
广告投放决策
深度神经网络
注意力机制
社交
体构建方法
大语言模型
强化学习技术
生成可执行
数字孪生体