摘要
本申请公开了基于自引导直接偏好优化的问答方法、装置、设备及介质,涉及大语言模型技术领域,包括:将用于完成问答任务的初始大语言模型作为待更新策略模型,初始化参考策略模型和用于调控待更新策略模型的梯度更新方向的自引导策略模型;获取历史问答场景下的正例序列的子序列、反例序列的子序列;利用上述模型构建包括正例序列与反例子序列之间的第一对比损失项和正例子序列与反例序列之间的第二对比损失项的自引导直接偏好优化损失函数;利用该函数对待更新策略模型进行迭代梯度更新,得到目标大语言模型;将当前问答任务输入目标大语言模型,获取目标大语言模型输出的任务处理结果。提高模型生成人类偏好响应的能力并增强训练稳定性。
技术关键词
序列
大语言模型
问答方法
策略
问答场景
参数
数据
问答装置
存储计算机程序
采样模块
可读存储介质
处理器
电子设备
存储器
人类
系统为您推荐了相关专利信息
铝合金加工件
辅助支撑组件
铝合金工件
分区组件
车削刀具
智能调控方法
旋流器
工况参数
数学模型
结构误差
液冷控制方法
温度预测模型
电池系统
历史运行数据
生成系统
轴承故障诊断方法
矩阵
故障特征
拉格朗日乘数法
采集机械设备
区间预测方法
LSTM算法
预测误差
计算机可读程序
分解算法