摘要
本申请实施例提供一种基于迁移强化学习的机器人避障方法和装置。应用于机器人避障控制技术领域,该方法通过获取目标域数据集,对数据集进行预处理后输入至训练好的Transformer模型,通过Transformer模型输出新的数据样本;将原始数据样本和新的数据样本进行混合,得到目标域合成数据集;采用条件变分自编码器根据目标域合成数据集进行目标域数据分布建模,确定目标域上数据的状态转移概率;利用双二元分类器架构根据机器人状态动作的实时交互数据确定源域上数据的状态转移概率;基于目标域的状态转移概率和源域的状态转移概率,对源域上训练的机器人避障策略进行迁移,减少了训练过程中的成本损耗,增加了避障策略的环境适应性。
技术关键词
机器人避障方法
计算机执行指令
分类器
数据分布
编码器
机器人避障装置
样本
计算机存储介质
轨迹
策略
模块
计算机程序产品
处理器
存储器
网络
解码器
代表
系统为您推荐了相关专利信息
消息
联合信源信道编码
分析模块
神经网络参数
差错保护
谣言检测方法
注意力机制
监督学习模型
分类器
矩阵
数据传输方法
编码器
数据压缩
解码器
钻井钻头位置