摘要
本说明书实施例公开了一种大语言模型的优化方法及装置,该方法通过少量人工标注数据合成偏好数据,可以生成大量高质量、一致性的训练样本,在节省训练时间和训练成本的同时,保障大语言模型的学习效果。该方法采用的直接偏好优化方法相比传统的强化学习方法更加稳定、高效,能够更好地保持大语言模型性能的稳定性。本说明书实施例所述的大语言模型的优化装置同样具有上述有益效果。
技术关键词
大语言模型
样本
扩展模块
优化装置
强化学习方法
基础
电子设备
可读存储介质
数据获取模块
存储器
标签
程序
计算机
处理器
系统为您推荐了相关专利信息
机械加工工艺
径向基函数神经网络
声波特征
变量
识别方法
图像特征值
多粒度级联森林
鉴别方法
遗传算法
随机森林
视频搜索
视觉特征
关键帧
视频理解方法
生成答案