摘要
本公开涉及利用信息检索反馈的强化学习。提供了一种用于生成用于训练机器学习的智能体模型的反馈信号的示例的计算机实现的方法,包括:获得机器学习的智能体模型的输出,该输出包括由该机器学习的智能体模型基于先前状态的序列而生成的下一状态特征。该示例方法可包括:使用机器学习的奖励模型来处理该输出和该先前状态的序列,以鉴于该先前状态来生成质量指示符,该质量指示符指示该下一状态特征的质量。该机器学习的奖励模型可通过以下方式来训练:从参考数据源检索参考数据,并且鉴于相应的训练输入和输出以及该参考数据来计算一个或多个质量指示符。该示例方法可包括:将该质量指示符输出到模型训练器,以用于更新该机器学习的智能体模型。
技术关键词
智能体模型
序列
计算机
训练器
数据
自然语言
系统更新
示例方法
信息检索
处理器
指令
信号
资源
参数
系统为您推荐了相关专利信息
共享方法
数据安全
星际文件系统
区块链系统
密钥
模型训练方法
变电站
生成对抗网络模型
缺陷检测方法
样本
人工心脏瓣膜支架
微型驱动装置
控制模块
数据传输模块
仿真模型
人工电源网络
过载保护系统
神经网络单元
参数
数据采集模块