利用信息检索反馈的强化学习

正文

推荐专利

利用信息检索反馈的强化学习

申请号：CN202410900461

申请日期：2024-07-05

公开号：CN118607671A

公开日期：2024-09-06

类型：发明专利

摘要

本公开涉及利用信息检索反馈的强化学习。提供了一种用于生成用于训练机器学习的智能体模型的反馈信号的示例的计算机实现的方法，包括：获得机器学习的智能体模型的输出，该输出包括由该机器学习的智能体模型基于先前状态的序列而生成的下一状态特征。该示例方法可包括：使用机器学习的奖励模型来处理该输出和该先前状态的序列，以鉴于该先前状态来生成质量指示符，该质量指示符指示该下一状态特征的质量。该机器学习的奖励模型可通过以下方式来训练：从参考数据源检索参考数据，并且鉴于相应的训练输入和输出以及该参考数据来计算一个或多个质量指示符。该示例方法可包括：将该质量指示符输出到模型训练器，以用于更新该机器学习的智能体模型。

技术关键词

智能体模型序列计算机训练器数据自然语言系统更新示例方法信息检索处理器指令信号资源参数

系统为您推荐了相关专利信息

一种基于改进算法的电商用户复购行为预测方法及系统

电商训练预测模型网格交互特征标签

一种关键隐私数据安全存证共享方法及装置

共享方法数据安全星际文件系统区块链系统密钥

模型训练方法、变电站缺陷检测方法、设备及存储介质

模型训练方法变电站生成对抗网络模型缺陷检测方法样本

一种可伸缩移动性的人工心脏瓣膜支架及其控制系统

人工心脏瓣膜支架微型驱动装置控制模块数据传输模块仿真模型

一种人工电源网络过载保护系统和方法

人工电源网络过载保护系统神经网络单元参数数据采集模块

利用信息检索反馈的强化学习

站点导航

APP 下载