摘要
本申请公开了一种智能体训练方法、装置、设备、存储介质及程序产品,涉及人工智能技术领域,该方法包括:根据模型超参数配置,创建智能体的训练环境;基于训练环境,初始化共享智能体,共享智能体设置核心智能体和自定义优化器的网络结构,核心智能体设置有多头自注意力网络和多演员家网络;在多进程并行环境中,根据输入图像对共享智能体进行迭代训练,获得累积折扣总奖励和总损失大小;根据累积折扣总奖励和总损失大小对共享智能体进行参数更新。由于本申请利用多头自注意力网络和多演员家网络的网络结构来优化共享智能体,可改善智能体的探索效率,避免陷入局部最优,减轻了过拟合风险,从而提高了智能体的泛化能力和采样准确性。
技术关键词
智能体训练方法
模型超参数
网络结构
进程
注意力
门控循环单元
共享内存状态
核心
网络存储结构
动作策略
计算机程序产品
单轮
参数更新模块
种子
人工智能技术
训练设备
处理器
图像
系统为您推荐了相关专利信息
场景理解方法
注意力机制
反馈调节机制
对象
序列
隧道衬砌病害
幅频特征
深度学习网络
数据
探地雷达
产品全生命周期
体系构建方法
层次化主题建模
生成对抗网络
功能模块
智能车辆
行驶安全系数
道路摩擦系数
全速度差模型
模拟装置
故障预警方法
声发射
隐马尔科夫模型
旋转组件
优化搜索算法