摘要
本申请提供一种大语言模型的偏好对齐训练方法、系统、介质及电子设备,所述方法包括:获取待训练文本;输入所述待训练文本及一任务提示至一融合dora模块的大语言模型中以产生一训练输出文本;所述任务提示用于命令所述大语言模型基于所述待训练文本执行任务;基于所述待训练文本和所述训练输出文本对所述大语言模型进行偏好对齐训练。本申请能够根据训练数据将大语言模型泛化到各个场景,有效解决训练资源不足的问题。同时,本申请更好地利用偏好信息,减少过拟合风险,保证训练获得的大语言模型与人类价值偏好对齐。
技术关键词
大语言模型
文本
训练系统
电子设备
数据
存储计算机程序
矩阵
命令
存储器
输入模块
参数
可读存储介质
处理器
人类
场景
风险
系统为您推荐了相关专利信息
数据交换电路
无阻塞
数据格式
数据流处理器
网络
能耗预测模型
智能调控
时序
深度置信网络
长短期记忆网络
刊登系统
电商
数据接收模块
数据处理模块
标签模块