摘要
一种基于分层强化学习的技能连招构建方法及终端,利用深度时序建模算法对虚拟环境的状态数据进行建模并依据状态数据生成子目标序列;基于子目标序列生成第一连招序列,识别第一连招序列中的违规操作和潜在风险并优化生成第二连招序列;以连招效果、资源消耗和连招稳定性为目标,利用奖励函数对第二连招序列进行优化,构建生成最优技能连招序列。本发明利用深度时序建模算法对虚拟环境进行全面建模,通过规则约束和决策搜索算法对连招合法性和稳定性进行验证和优化,有效规避技能连招中的违规操作和潜在风险,提高构建连招的动态适应性,从而实现高覆盖率,有效提升了技能连招测试效率。
技术关键词
分层强化学习
序列
建模算法
搜索算法
强化学习算法
时序
风险
终端
决策
数据
策略
机制
资源
模式
处理器
覆盖率
存储器
动态
系统为您推荐了相关专利信息
高空作业平台
智能监管方法
序列
风险
动态时间规整
识别方法
双向长短期记忆网络
时序
样本
分类模型构建
建立神经网络模型
像素点
标签
CT图像序列
直方图
人工智能图像识别
分辨率
图像处理方法
参数
色块
脉冲
搜索算法
动力电池
神经网络结构
安时积分法