一种基于标记增强学习的大语言模型多维偏好对齐方法及系统

AITNT
正文
推荐专利
一种基于标记增强学习的大语言模型多维偏好对齐方法及系统
申请号:CN202510669015
申请日期:2025-05-23
公开号:CN120196748B
公开日期:2025-08-12
类型:发明专利
摘要
本发明公开了一种基于标记增强学习的大语言模型多维偏好对齐方法及系统。本发明方法包括:使用多个不同奖励模型对对话样本数据进行打分,得到样本偏好置信度,进行标记增强,并对偏好数据集进行重构;从重构的数据集中选定对话样本对大语言模型进行有监督训练之后,对大语言模型进行基于置信度的带权重直接偏好优化;结合普拉特缩放进行大语言模型校准,对大语言模型参数和校准参数进行迭代更新,实现多维人类偏好对齐的最优策略。本发明通过调用多个奖励模型作为人类代理来生成对话样本置信度,结合标记增强学习解决了主流对齐数据集中缺乏体现多维人类偏好特征的缺点,有效提升了大语言模型对话质量,具有广泛的实际应用前景。
技术关键词
对齐方法 模型校准 样本 大语言模型 梯度下降算法 标记 参数 数据 控制策略 对齐系统 三元组 偏好特征 对齐模块 训练集 计算机程序产品 处理器 重构模块
系统为您推荐了相关专利信息
1
信号处理板卡的设计方法、系统、装置及储存介质
信号处理板卡 噪声系数 机器学习模型 计算机可读储存介质 混频器
2
微束系统的结构生成方法、装置及设备
生成网络模型 结构生成方法 数据 生成结构 束线
3
反射率因子预测模型的训练方法、降雨量预测方法及装置
反射率 降雨量预测方法 因子 局部特征信息 雷达
4
一种基于播客系统的交互方法、装置、设备、介质及产品
自动语音识别 话题 交互方法 大语言模型 计算机程序产品
5
一种基于改进VAE与泊松融合的样本生成方法
样本生成方法 融合方法 图像数据处理技术 分类阈值 生成融合图像
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号