基于后验预测采样的预训练语言模型强化推理训练方法

正文

推荐专利

申请号：CN202510801515

申请日期：2025-06-16

公开号：CN120706553A

公开日期：2025-09-26

类型：发明专利

摘要

本申请涉及一种基于后验预测采样的预训练语言模型强化推理训练方法，其中，方法包括：对每个待训练的推理任务或问题分别维护对应难度估计的后验分布；利用满足预设小型条件的代理模型或基础分布初始化后验分布；对候选数据集进行代理评估；对每个样本进行数据筛选，以确定满足预设学习价值条件的至少一个样本；将至少一个样本进行真实评估；利用贝叶斯更新规则更新对应样本的后验分布参数，利用更新参数调整训练过程中的代理评估结果，并利用真实评估结果和强化学习语言训练预训练语言模型。本申请引入后验采样的思想，为每个推理任务或问题动态维护一个难度估计分布，实现更高效、更经济的训练，并提升大模型在复杂推理任务上的表现。

技术关键词

样本预训练语言模型参数数据卡尔曼滤波计算机程序产品处理器模块训练装置基础可读存储介质信号存储器标签电子设备动态

系统为您推荐了相关专利信息

一种用于存储过程血缘分析方法

血缘分析方法解析算法分片数据库驱动程序细粒度模型

一种管线规划设计方法及系统

规划设计方法光缆在线资源生成规则

一种基于生成式AI与虚拟人技术的数学教学虚拟教师系统

虚拟教师系统知识点学生解题隐马尔可夫模型注意力机制

一种密集架电源控制系统

密集架组件电源控制系统状态空间模型状态传感器中央控制

一种加工磨损预测方法

磨损预测方法刀具磨损量量子态薛定谔方程神经网络架构

基于后验预测采样的预训练语言模型强化推理训练方法

站点导航

APP 下载