奖励模型的训练方法、大语言模型的优化方法及相关设备

AITNT
正文
推荐专利
奖励模型的训练方法、大语言模型的优化方法及相关设备
申请号:CN202511446159
申请日期:2025-10-11
公开号:CN121031714A
公开日期:2025-11-28
类型:发明专利
摘要
本发明公开了一种奖励模型的训练方法、大语言模型的优化方法及相关,奖励模型的训练方法包括:获取偏好训练样本对以及待训练的奖励模型,偏好训练样本对包括首选响应样本与非首选响应样本;基于待训练的奖励模型计算首选响应样本与非首选响应样本的奖励分数差;基于奖励分数差以及首选响应样本、非首选响应样本二者之间的语义关联度构建成本矩阵;基于成本矩阵,计算损失边际;基于损失边际计算得到带边际的成对偏好损失值,并以最小化基于带边际的损失值为优化目标对待训练的奖励模型的参数进行更新,得到训练好的奖励模型。提升了模型对困难样本的学习能力和整体泛化性能,避免过度依赖简单样本,进而改进大语言模型在复杂任务中的生成质量。
技术关键词
样本 语义关联度 计算机可读指令 大语言模型 矩阵 处理器 训练装置 计算机设备 模块 可读存储介质 存储器 参数 关系 信号 策略
系统为您推荐了相关专利信息
1
一种基于大语言模型的沸石多任务合成辅助方法及系统
大语言模型 启发式规则 多任务 结构化自然语言 新型沸石材料
2
一种基于算术优化算法的无线网络入侵检测方法
入侵检测模型 无线网络 数据 算法 参数
3
疼痛问答方法、装置、介质及电子设备
情感分析模型 疼痛模型 问答方法 模板 计算机存储介质
4
一种基于车载单目视觉的弓网几何参数检测方法
参数检测方法 关键点 受电弓 车载单目 检测弓网
5
基于PTA量表的医学类实验报告的AI辅助批阅系统、方法、介质、程序产品及终端
批阅系统 量表 批阅方法 自然语言生成技术 计算机程序代码
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号