摘要
本发明公开了一种基于标记增强学习的大语言模型多维偏好对齐方法及系统。本发明方法包括:使用多个不同奖励模型对对话样本数据进行打分,得到样本偏好置信度,进行标记增强,并对偏好数据集进行重构;从重构的数据集中选定对话样本对大语言模型进行有监督训练之后,对大语言模型进行基于置信度的带权重直接偏好优化;结合普拉特缩放进行大语言模型校准,对大语言模型参数和校准参数进行迭代更新,实现多维人类偏好对齐的最优策略。本发明通过调用多个奖励模型作为人类代理来生成对话样本置信度,结合标记增强学习解决了主流对齐数据集中缺乏体现多维人类偏好特征的缺点,有效提升了大语言模型对话质量,具有广泛的实际应用前景。
技术关键词
对齐方法
模型校准
样本
大语言模型
梯度下降算法
标记
参数
数据
控制策略
对齐系统
三元组
偏好特征
对齐模块
训练集
计算机程序产品
处理器
重构模块
系统为您推荐了相关专利信息
信号处理板卡
噪声系数
机器学习模型
计算机可读储存介质
混频器
自动语音识别
话题
交互方法
大语言模型
计算机程序产品
样本生成方法
融合方法
图像数据处理技术
分类阈值
生成融合图像