大语言模型训练方法、装置、电子设备及存储介质

正文

推荐专利

申请号：CN202510552525

申请日期：2025-04-29

公开号：CN120633756A

公开日期：2025-09-12

类型：发明专利

摘要

本申请公开一种大语言模型训练方法、装置、电子设备及存储介质，涉及人工智能与强化学习技术领域。方法包括：获取问题语句对应的初始预测答案语句；针对初始预测答案语句进行语义扩充检索，确定与初始预测答案语句相对应的检索答案语句；针对检索答案语句进行评分，并基于检索答案语句的评分结果，确定初始预测答案语句的目标奖励值；若目标奖励值小于预设奖励阈值，基于目标奖励值对预训练大语言模型进行调整，并将问题语句再次输入调整后的模型中，直至最后得到的目标奖励值大于或等于预设奖励阈值，完成对预训练大语言模型的训练。本申请能够提升大语言模型的优化训练效率和模型输出的准确性，提升了大语言模型输出的稳定性。

技术关键词

语句语言模型训练方法答案大语言模型语义机器可读指令强化学习技术训练装置电子设备奖励算法格式处理器可读存储介质存储器输出模块计算机样本教师数据

系统为您推荐了相关专利信息

项目推荐方法、装置、介质及计算机设备

序列项目推荐方法语义项目推荐装置计算机设备

一种通信设备管理方法、装置、设备及存储介质

设备标识信息通信设备管理方法模板通信设备运维指令

一种面向非接触式雷达心动波形图的报告生成方法

报告生成方法非接触式深度神经网络结构图像特征编码损失函数设计

一种基于深度学习和有限元的轨道裂纹识别及疲劳寿命预测方法及系统

疲劳寿命预测方法裂纹识别训练深度神经网络三维有限元模型图像

一种基于深度学习的遥感图像自适应聚类分割方法

聚类分割方法矩阵多层感知机节点特征多头注意力机制

大语言模型训练方法、装置、电子设备及存储介质

站点导航

APP 下载