摘要
本发明公开了一种无人夹抱车强化学习规控算法的评价网络设计方法,本发明通过高质量离线正样本融入评价网络的训练过程中,加速强化学习规控算法收敛并减少试错探索时间以提升作业效率;同时构建专门的评价网络融合层,依据离线正样本可信度与在线训练可信度动态调整权重,将离线正样本信息与在线训练特征融合,充分挖掘其有效作业策略,增强评价网络准确性与稳定性,最终实现整个强化学习规控算法性能的显著提升,有效推动无人夹抱车在复杂物流环境中的高效、精准作业。
技术关键词
网络设计方法
样本
夹抱车
作业场景
离线
融合策略
在线
算法
序列
训练特征融合
网络基础架构
作业策略
优化器
数据
参数
计算误差
训练集
系统为您推荐了相关专利信息
特征提取模型
深度信念网络
电力设备
训练样本集
受限玻尔兹曼机
DBSCAN聚类算法
温度预测方法
多阶段
数据
融合特征