摘要
一种防御型AIGC对抗智能体及其训练方法,属于人工智能技术领域。智能体中,强化学习模块通过观测策略网络得取一条轨迹;解耦学习模块根据所述轨迹生成反事实轨迹,并进行解耦学习得到奖励函数,根据奖励函数算出奖励,根据奖励生成反事实策略网络的参数;对抗学习模块中,控制器根据反事实策略网络控制智能体生成多个反向辩论动作,控制观测策略网络生成多个正向辩论动作,判别器根据多个反向辩论动作的转移状态和多个正向辩论动作的转移状态判断正向辩论动作和反向辩论动作的真伪,将真的辩论动作、状态、下一个状态及奖励作为一个四元组放入缓冲池中。本发明能够能够识别语境,使得智能体产生更灵活的辩论策略。
技术关键词
RNN神经网络
策略
轨迹
LSTM神经网络
计算器
模块
神经网络参数
人工智能技术
网络控制
计算误差
注意力机制
缓冲
控制器
系统为您推荐了相关专利信息
决策方法
无人机作业平台
稻田
施肥作业
导航控制系统
显示器设备
亮度调节方法
数据处理单元
调节控制单元
信号收发模块
作业车间调度方法
染色体
零件
编码结构
生成产品
地质勘测方法
动态规划算法
贝叶斯网络模型
资源调度优化
粒子群算法
空间数据采集方法
三维环境模型
轨迹
三维模型
空间配准算法