摘要
本申请涉及一种模型预测任务采样的元强化学习和域随机化训练方法,其中,方法包括:构建在线构建的深度生成模型的风险随机函数,且确定其风险函数分布,并推断风险函数分布的近似后验;估算深度生成模型的函数后验分布,以构建目标采集函数,且利用目标采集函数在目标任务空间进行随机采样,得到后验任务自适应损失的预测值和对应的采集数据,并通过预测值和风险学习器预测采集数据的采集分数生成目标情节优化任务批次;确定机器学习器的域随机化和元强化学习更新规则,从而对机器学习器执行在目标零样本或目标小样本的自适应模型中的决策模型更新训练操作。由此,解决了现有技术难以在提高自适应鲁棒性的同时,改善模型的计算效率等问题。
技术关键词
深度生成模型
风险
机器学习器
标识符
神经网络参数
模型更新
变量
策略
决策
数据
样本
在线
计算机程序产品
处理器
编码
表达式
训练装置
转换单元
数学
系统为您推荐了相关专利信息
漏洞
语义分析模型
指令间数据依赖
语义特征
序列