摘要
本发明提供一种基于在线数据的价值函数持续学习方法与系统,其中方法包括:基于当前学习的价值,推断生成期望价值并进一步确定出对应的流态,使用生成模型,生成流态对应的第一数据样本;发布任务及任务场景,接收其他用户对于任务的操作生成相应的场景数据;对场景数据进行处理,获得第二数据样本;将第一数据样本和第二数据样本添加进原训练数据样本中,并对训练数据样本进行处理后,重新对价值函数进行训练。本发明的基于在线数据的价值函数持续学习方法及系统,实现有效持续地在线数据的收集,保证了价值函数的持续学习更新,以保证人工智能系统的有效更新。
技术关键词
持续学习方法
数据
学习系统
样本
场景
对象
在线
参数
神经网络模型
人工智能系统
因子
模块
系统为您推荐了相关专利信息
配电系统
马尔可夫模型
可靠性预测方法
指标
计算机程序产品
气象预警信息
气象灾害预警
推送方法
模板
预警模块
误差状态
状态空间模型
全球导航卫星系统
状态估计器
RNN模型