摘要
本公开提供一种奖励模型训练方法、智能体训练方法、目标物选址方法及其装置、存储介质,涉及计算机技术领域。奖励模型训练方法包括:构建样本数据集,其中样本数据集包括用于目标物选址的多个样本状态信息,与第t个样本状态信息对应的第t个样本动作信息,和第t个样本动作信息的奖励值标注信息,第t+1个样本状态信息为执行第t个样本动作信息后得到的样本状态信息,,N为样本状态信息总数;利用奖励模型对第t个样本状态信息、第t个样本动作信息和第t+1个样本状态信息进行处理,得到第t个样本动作信息的奖励值;根据第t个样本动作信息的奖励值和第t个样本动作信息的奖励值标注信息,对奖励模型进行训练。
技术关键词
智能体训练方法
模型训练方法
样本
选址方法
状态更新
存储器
处理器
视频采集装置
模型训练装置
选址模型
指令
可读存储介质
计算机程序产品
数据
参数
关系
系统为您推荐了相关专利信息
生态化治理方法
平均降雨强度
逻辑回归模型
最佳布局位置
数字高程模型数据
镜片
无人机摄像头
在线监测分析
回归树模型
数据