摘要
本发明提供一种基于分组自我博弈和自适应加权的大模型微调方法及装置,涉及自然语言处理技术领域。该方法包括:根据大语言模型构建对手团队生成模型响应,根据输入数据、目标响应和模型响应构建偏好数据集;构建主力团队,定义主力团队成员的评分函数,根据偏好数据集和评分函数构建损失函数;根据主力团队中的每个队员对目标响应的评分得到目标响应在损失函数中的自适应权重;根据每个队员对目标响应的评分和对模型响应的评分定义偏好边距,计算每个队员的权重,构建最终的损失函数,对大语言模型进行迭代微调。本发明提出了一种新的大语言模型微调算法,它分别通过基于分组的自我博弈和双重自适应权重调节来增强大语言模型的对齐效果。
技术关键词
团队
微调方法
大语言模型
计算机可读取存储介质
数据
计算机可读指令
前三轮
样本
问答系统
机器翻译
微调装置
人类
控制权
定义
文本
参数
摘要
自然语言
意图
处理器
系统为您推荐了相关专利信息
办公用品自动化
机器人
工位
计算机程序产品
处理器
智能分析方法
POS收银系统
Elasticsearch索引
自然语言
大语言模型
硅压阻压力传感器
性能测试数据
故障传感器
评价方法
误差
多模态数据融合
轴承钢
时间戳同步技术
融合特征
深度神经网络