奖励模型训练方法、智能体训练方法、目标物选址方法及其装置、存储介质

AITNT
正文
推荐专利
奖励模型训练方法、智能体训练方法、目标物选址方法及其装置、存储介质
申请号:CN202411864494
申请日期:2024-12-17
公开号:CN119721111A
公开日期:2025-03-28
类型:发明专利
摘要
本公开提供一种奖励模型训练方法、智能体训练方法、目标物选址方法及其装置、存储介质,涉及计算机技术领域。奖励模型训练方法包括:构建样本数据集,其中样本数据集包括用于目标物选址的多个样本状态信息,与第t个样本状态信息对应的第t个样本动作信息,和第t个样本动作信息的奖励值标注信息,第t+1个样本状态信息为执行第t个样本动作信息后得到的样本状态信息,,N为样本状态信息总数;利用奖励模型对第t个样本状态信息、第t个样本动作信息和第t+1个样本状态信息进行处理,得到第t个样本动作信息的奖励值;根据第t个样本动作信息的奖励值和第t个样本动作信息的奖励值标注信息,对奖励模型进行训练。
技术关键词
智能体训练方法 模型训练方法 样本 选址方法 状态更新 存储器 处理器 视频采集装置 模型训练装置 选址模型 指令 可读存储介质 计算机程序产品 数据 参数 关系
系统为您推荐了相关专利信息
1
一种纵向联邦学习中基于模型精度预估的参与者选择方法
发布者 特征值编码 联邦学习模型 样本 精度
2
一种面向滨海城市水浸灾害防治的生态化治理方法及系统
生态化治理方法 平均降雨强度 逻辑回归模型 最佳布局位置 数字高程模型数据
3
一种无人机摄像头镜片生产制造在线监测分析管理方法
镜片 无人机摄像头 在线监测分析 回归树模型 数据
4
语音生成方法、装置、电子设备和存储介质
语音生成方法 语音生成模型 文本 生成语音 序列
5
基于多跳邻居聚合和关系关联的少样本知识图谱补全方法
知识图谱补全方法 实体 关系 数据分布 邻居
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号