摘要
本申请实施例公开了一种大语言模型价值对齐方法,包括:获取多个问题查询文本及对应的候选答案池;确定候选答案池中各候选答案的奖励得分,生成训练样本数据集;确定各候选答案的回答概率,根据多个候选答案的回答概率及奖励得分计算各问题查询文本的第一奖励期望,根据所有第一奖励期望计算所有问题查询文本的第二奖励期望;根据第二奖励期望及训练样本数据集对大语言模型进行价值对齐调整以对模型参数进行调整,判断是否满足预定收敛条件;若否,则根据调整后的大语言模型生成各问题查询文本的多个新的候选答案,根据多个新的候选答案对候选答案池进行更新,跳转执行确定奖励得分;若是,则生成目标大语言模型,提升了模型价值对齐能力。
技术关键词
答案
训练样本数据
文本
大语言模型
对齐方法
分词
生成训练样本
模块
通信接口
处理器
计算机存储介质
指令
对齐装置
计算机程序产品
参数
存储器
系统为您推荐了相关专利信息
大语言模型
资产评估方法
报告
模板
数据分析模块
文本特征向量
度分析方法
Pearson相关系数
序列
自由端