摘要
本公开提供了一种智能体强化学习方法及交互方法,涉及人工智能技术领域。具体实现方案包括:获取外部环境基于候选时刻的当前环境状态;根据当前环境状态和待交互对象的历史动作序列,确定待交互对象的预估对象意图;基于待训练智能体的角色行为风格,确定与预估对象意图匹配的智能体动作;执行智能体动作,并获取基于智能体动作的交互响应结果,交互响应结果包括外部环境的状态转移结果和/或待交互对象的实际交互动作;以及根据交互响应结果,更新预估对象意图和智能体动作,以实现对待训练智能体的强化学习。
技术关键词
意图
对象
智能体强化学习方法
训练智能体
风格
交互动作
序列
动作策略
神经网络模型
交互方法
智能体交互
人工智能技术
学习装置
计算机
决策
处理器通信