基于自引导直接偏好优化的问答方法、装置、设备及介质

AITNT
正文
推荐专利
基于自引导直接偏好优化的问答方法、装置、设备及介质
申请号:CN202510799210
申请日期:2025-06-13
公开号:CN120632048A
公开日期:2025-09-12
类型:发明专利
摘要
本申请公开了基于自引导直接偏好优化的问答方法、装置、设备及介质,涉及大语言模型技术领域,包括:将用于完成问答任务的初始大语言模型作为待更新策略模型,初始化参考策略模型和用于调控待更新策略模型的梯度更新方向的自引导策略模型;获取历史问答场景下的正例序列的子序列、反例序列的子序列;利用上述模型构建包括正例序列与反例子序列之间的第一对比损失项和正例子序列与反例序列之间的第二对比损失项的自引导直接偏好优化损失函数;利用该函数对待更新策略模型进行迭代梯度更新,得到目标大语言模型;将当前问答任务输入目标大语言模型,获取目标大语言模型输出的任务处理结果。提高模型生成人类偏好响应的能力并增强训练稳定性。
技术关键词
序列 大语言模型 问答方法 策略 问答场景 参数 数据 问答装置 存储计算机程序 采样模块 可读存储介质 处理器 电子设备 存储器 人类
系统为您推荐了相关专利信息
1
一种用于复杂曲面铝合金工件的数控车削加工设备
铝合金加工件 辅助支撑组件 铝合金工件 分区组件 车削刀具
2
基于数学模型的分级细度智能调控方法及系统
智能调控方法 旋流器 工况参数 数学模型 结构误差
3
一种储能电池液冷控制方法及系统
液冷控制方法 温度预测模型 电池系统 历史运行数据 生成系统
4
基于自监督空间学习的跨模态轴承故障诊断方法
轴承故障诊断方法 矩阵 故障特征 拉格朗日乘数法 采集机械设备
5
一种基于ICEEMDAN-VMD-LSTM-KDE的海上风电风功率点与区间预测方法和装置
区间预测方法 LSTM算法 预测误差 计算机可读程序 分解算法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号