基于后验预测采样的预训练语言模型强化推理训练方法

AITNT
正文
推荐专利
基于后验预测采样的预训练语言模型强化推理训练方法
申请号:CN202510801515
申请日期:2025-06-16
公开号:CN120706553A
公开日期:2025-09-26
类型:发明专利
摘要
本申请涉及一种基于后验预测采样的预训练语言模型强化推理训练方法,其中,方法包括:对每个待训练的推理任务或问题分别维护对应难度估计的后验分布;利用满足预设小型条件的代理模型或基础分布初始化后验分布;对候选数据集进行代理评估;对每个样本进行数据筛选,以确定满足预设学习价值条件的至少一个样本;将至少一个样本进行真实评估;利用贝叶斯更新规则更新对应样本的后验分布参数,利用更新参数调整训练过程中的代理评估结果,并利用真实评估结果和强化学习语言训练预训练语言模型。本申请引入后验采样的思想,为每个推理任务或问题动态维护一个难度估计分布,实现更高效、更经济的训练,并提升大模型在复杂推理任务上的表现。
技术关键词
样本 预训练语言模型 参数 数据 卡尔曼滤波 计算机程序产品 处理器 模块 训练装置 基础 可读存储介质 信号 存储器 标签 电子设备 动态
系统为您推荐了相关专利信息
1
一种用于存储过程血缘分析方法
血缘分析方法 解析算法 分片 数据库驱动程序 细粒度模型
2
一种管线规划设计方法及系统
规划设计方法 光缆 在线 资源 生成规则
3
一种基于生成式AI与虚拟人技术的数学教学虚拟教师系统
虚拟教师系统 知识点 学生解题 隐马尔可夫模型 注意力机制
4
一种密集架电源控制系统
密集架组件 电源控制系统 状态空间模型 状态传感器 中央控制
5
一种加工磨损预测方法
磨损预测方法 刀具磨损量 量子态 薛定谔方程 神经网络架构
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号