利用信息检索反馈的强化学习

AITNT
正文
推荐专利
利用信息检索反馈的强化学习
申请号:CN202410900461
申请日期:2024-07-05
公开号:CN118607671A
公开日期:2024-09-06
类型:发明专利
摘要
本公开涉及利用信息检索反馈的强化学习。提供了一种用于生成用于训练机器学习的智能体模型的反馈信号的示例的计算机实现的方法,包括:获得机器学习的智能体模型的输出,该输出包括由该机器学习的智能体模型基于先前状态的序列而生成的下一状态特征。该示例方法可包括:使用机器学习的奖励模型来处理该输出和该先前状态的序列,以鉴于该先前状态来生成质量指示符,该质量指示符指示该下一状态特征的质量。该机器学习的奖励模型可通过以下方式来训练:从参考数据源检索参考数据,并且鉴于相应的训练输入和输出以及该参考数据来计算一个或多个质量指示符。该示例方法可包括:将该质量指示符输出到模型训练器,以用于更新该机器学习的智能体模型。
技术关键词
智能体模型 序列 计算机 训练器 数据 自然语言 系统更新 示例方法 信息检索 处理器 指令 信号 资源 参数
系统为您推荐了相关专利信息
1
一种基于改进算法的电商用户复购行为预测方法及系统
电商 训练预测模型 网格 交互特征 标签
2
一种关键隐私数据安全存证共享方法及装置
共享方法 数据安全 星际文件系统 区块链系统 密钥
3
模型训练方法、变电站缺陷检测方法、设备及存储介质
模型训练方法 变电站 生成对抗网络模型 缺陷检测方法 样本
4
一种可伸缩移动性的人工心脏瓣膜支架及其控制系统
人工心脏瓣膜支架 微型驱动装置 控制模块 数据传输模块 仿真模型
5
一种人工电源网络过载保护系统和方法
人工电源网络 过载保护系统 神经网络单元 参数 数据采集模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号