摘要
本发明实施例提供了一种智能体动作控制方法、装置、电子设备及存储介质,在对智能体动作进行控制时,结合了辅助任务、经验双重采样和价值函数动态矫正的深度强化学习算法,通过引入辅助任务,提升了特征提取的质量,增强了模型对状态的理解能力;同时,通过经验双重采样,提高了样本的利用效率,加速了学习过程;价值函数动态矫正则有助于稳定学习过程,避免模型陷入局部最优。
技术关键词
特征提取网络
解码误差
动作控制方法
生成训练样本
估计误差
动作策略
生成动作
决策
深度强化学习算法
动作控制装置
矫正
通信接口
输出模块
电子设备
处理器
编码
存储器
系统为您推荐了相关专利信息
残差注意力机制
蛋白质表达
神经网络训练
多头注意力机制
DNA序列
决策树模型
注意力
特征提取网络
文本分类方法
词特征