摘要
本发明涉及一种用于人群自适应行为仿真的分层强化学习方法,通过基于智能体在人群中的当前位置、目标点和环境结构构建其在静态封闭环境下的静态规划最优路径,并生成该智能体自当前位置点朝目标点移动的目标趋向速度,建立激光雷达观测数据到碰撞避免速度的非线性映射并基于智能体周身环境提供动态避障指引,根据智能体周围人员分布信息分别动态调整目标趋向速度权重和碰撞避免速度权重,并根据智能体当前的目标趋向速度、调整后目标趋向速度权重值、目标趋向速度权重调整值及调整后碰撞避免速度权重值做速度加权耦合,得到智能体自适应行走速度。如此,完成了在智能体不引起局部碰撞情况下实现全局路径优化,提高了强化学习效率。
技术关键词
分层强化学习
规划最优路径
速度
路径搜索算法
动态避障
注意力机制
强化学习模型
门控循环单元
风险
激光雷达
超参数
生成方式
矩阵
非线性
编码
射线
地点
系统为您推荐了相关专利信息
仿真评估方法
地铁列车
疲劳裂纹
瞬态温度场
制动盘表面
稳定性控制方法
分布式驱动
轮式车辆
车辆质心侧偏角
车辆横摆角速度
调速控制系统
调速控制装置
皮带运行速度
综合保护装置
防爆变频器
粒子群优化算法
模拟退火算法
通信链路
位置更新
网络设备