基于自引导直接偏好优化的问答方法、装置、设备及介质

正文

推荐专利

申请号：CN202510799210

申请日期：2025-06-13

公开号：CN120632048A

公开日期：2025-09-12

类型：发明专利

摘要

本申请公开了基于自引导直接偏好优化的问答方法、装置、设备及介质，涉及大语言模型技术领域，包括：将用于完成问答任务的初始大语言模型作为待更新策略模型，初始化参考策略模型和用于调控待更新策略模型的梯度更新方向的自引导策略模型；获取历史问答场景下的正例序列的子序列、反例序列的子序列；利用上述模型构建包括正例序列与反例子序列之间的第一对比损失项和正例子序列与反例序列之间的第二对比损失项的自引导直接偏好优化损失函数；利用该函数对待更新策略模型进行迭代梯度更新，得到目标大语言模型；将当前问答任务输入目标大语言模型，获取目标大语言模型输出的任务处理结果。提高模型生成人类偏好响应的能力并增强训练稳定性。

技术关键词

序列大语言模型问答方法策略问答场景参数数据问答装置存储计算机程序采样模块可读存储介质处理器电子设备存储器人类

系统为您推荐了相关专利信息

一种用于复杂曲面铝合金工件的数控车削加工设备

铝合金加工件辅助支撑组件铝合金工件分区组件车削刀具

基于数学模型的分级细度智能调控方法及系统

智能调控方法旋流器工况参数数学模型结构误差

一种储能电池液冷控制方法及系统

液冷控制方法温度预测模型电池系统历史运行数据生成系统

基于自监督空间学习的跨模态轴承故障诊断方法

轴承故障诊断方法矩阵故障特征拉格朗日乘数法采集机械设备

一种基于ICEEMDAN-VMD-LSTM-KDE的海上风电风功率点与区间预测方法和装置

区间预测方法 LSTM算法预测误差计算机可读程序分解算法

基于自引导直接偏好优化的问答方法、装置、设备及介质

站点导航

APP 下载