奖励模型的训练方法、大语言模型的优化方法及相关设备

正文

推荐专利

申请号：CN202511446159

申请日期：2025-10-11

公开号：CN121031714A

公开日期：2025-11-28

类型：发明专利

摘要

本发明公开了一种奖励模型的训练方法、大语言模型的优化方法及相关，奖励模型的训练方法包括：获取偏好训练样本对以及待训练的奖励模型，偏好训练样本对包括首选响应样本与非首选响应样本；基于待训练的奖励模型计算首选响应样本与非首选响应样本的奖励分数差；基于奖励分数差以及首选响应样本、非首选响应样本二者之间的语义关联度构建成本矩阵；基于成本矩阵，计算损失边际；基于损失边际计算得到带边际的成对偏好损失值，并以最小化基于带边际的损失值为优化目标对待训练的奖励模型的参数进行更新，得到训练好的奖励模型。提升了模型对困难样本的学习能力和整体泛化性能，避免过度依赖简单样本，进而改进大语言模型在复杂任务中的生成质量。

技术关键词

样本语义关联度计算机可读指令大语言模型矩阵处理器训练装置计算机设备模块可读存储介质存储器参数关系信号策略

系统为您推荐了相关专利信息

一种基于大语言模型的沸石多任务合成辅助方法及系统

大语言模型启发式规则多任务结构化自然语言新型沸石材料

一种基于算术优化算法的无线网络入侵检测方法

入侵检测模型无线网络数据算法参数

疼痛问答方法、装置、介质及电子设备

情感分析模型疼痛模型问答方法模板计算机存储介质

一种基于车载单目视觉的弓网几何参数检测方法

参数检测方法关键点受电弓车载单目检测弓网

基于PTA量表的医学类实验报告的AI辅助批阅系统、方法、介质、程序产品及终端

批阅系统量表批阅方法自然语言生成技术计算机程序代码

奖励模型的训练方法、大语言模型的优化方法及相关设备

站点导航

APP 下载