摘要
本发明一种基于专家知识‑决策数据融合的无人系统策略虚实增强方法,属于无人系统智能决策领域。本发明包括:通过现实环境人机交互和虚拟环境自主推演的方式获取专家、无人系统智能体决策轨迹;融合专家轨迹和无人系统智能体轨迹数据形成混合决策轨迹;基于任务场景的奖励规则补全混合决策轨迹奖励信息;将完整混合决策轨迹和无人系统智能体轨迹数据保存到经验池;从经验池获取轨迹训练数据,计算虚实混合权重;利用虚实混合权重计算无人系统智能体策略网络的损失,训练无人系统智能体策略网络,以用于真实场景中无人系统的轨迹决策。本发明提高了无人系统智能体的决策效率,解决了虚拟场景中训练的决策模型迁移到真实场景中难以直接适用的问题。
技术关键词
三元组
序列
策略
融合专家
决策网络模型
数据
智能体模型
人机交互方式
场景
生成轨迹
超参数
定义
标记
系统为您推荐了相关专利信息
动态管理方法
资源分配策略
硬件状态监控
GPU互联结构
管理云平台
智能识别方法
水库
特征提取单元
彩色图像
多策略融合
多尺度特征金字塔
生物医学知识库
图像
融合策略
度量