奖励模型训练方法、智能体训练方法、目标物选址方法及其装置、存储介质

正文

推荐专利

申请号：CN202411864494

申请日期：2024-12-17

公开号：CN119721111A

公开日期：2025-03-28

类型：发明专利

摘要

本公开提供一种奖励模型训练方法、智能体训练方法、目标物选址方法及其装置、存储介质，涉及计算机技术领域。奖励模型训练方法包括：构建样本数据集，其中样本数据集包括用于目标物选址的多个样本状态信息，与第t个样本状态信息对应的第t个样本动作信息，和第t个样本动作信息的奖励值标注信息，第t+1个样本状态信息为执行第t个样本动作信息后得到的样本状态信息，，N为样本状态信息总数；利用奖励模型对第t个样本状态信息、第t个样本动作信息和第t+1个样本状态信息进行处理，得到第t个样本动作信息的奖励值；根据第t个样本动作信息的奖励值和第t个样本动作信息的奖励值标注信息，对奖励模型进行训练。

技术关键词

智能体训练方法模型训练方法样本选址方法状态更新存储器处理器视频采集装置模型训练装置选址模型指令可读存储介质计算机程序产品数据参数关系

系统为您推荐了相关专利信息

一种纵向联邦学习中基于模型精度预估的参与者选择方法

发布者特征值编码联邦学习模型样本精度

一种面向滨海城市水浸灾害防治的生态化治理方法及系统

生态化治理方法平均降雨强度逻辑回归模型最佳布局位置数字高程模型数据

一种无人机摄像头镜片生产制造在线监测分析管理方法

镜片无人机摄像头在线监测分析回归树模型数据

语音生成方法、装置、电子设备和存储介质

语音生成方法语音生成模型文本生成语音序列

基于多跳邻居聚合和关系关联的少样本知识图谱补全方法

知识图谱补全方法实体关系数据分布邻居

奖励模型训练方法、智能体训练方法、目标物选址方法及其装置、存储介质

站点导航

APP 下载