摘要
本申请涉及一种基于后验预测采样的预训练语言模型强化推理训练方法,其中,方法包括:对每个待训练的推理任务或问题分别维护对应难度估计的后验分布;利用满足预设小型条件的代理模型或基础分布初始化后验分布;对候选数据集进行代理评估;对每个样本进行数据筛选,以确定满足预设学习价值条件的至少一个样本;将至少一个样本进行真实评估;利用贝叶斯更新规则更新对应样本的后验分布参数,利用更新参数调整训练过程中的代理评估结果,并利用真实评估结果和强化学习语言训练预训练语言模型。本申请引入后验采样的思想,为每个推理任务或问题动态维护一个难度估计分布,实现更高效、更经济的训练,并提升大模型在复杂推理任务上的表现。
技术关键词
样本
预训练语言模型
参数
数据
卡尔曼滤波
计算机程序产品
处理器
模块
训练装置
基础
可读存储介质
信号
存储器
标签
电子设备
动态
系统为您推荐了相关专利信息
血缘分析方法
解析算法
分片
数据库驱动程序
细粒度模型
虚拟教师系统
知识点
学生解题
隐马尔可夫模型
注意力机制
密集架组件
电源控制系统
状态空间模型
状态传感器
中央控制
磨损预测方法
刀具磨损量
量子态
薛定谔方程
神经网络架构