摘要
本发明提供一种基于分组自我博弈和自适应加权的大模型微调方法及装置,涉及自然语言处理技术领域。该方法包括:根据大语言模型构建对手团队生成模型响应,根据输入数据、目标响应和模型响应构建偏好数据集;构建主力团队,定义主力团队成员的评分函数,根据偏好数据集和评分函数构建损失函数;根据主力团队中的每个队员对目标响应的评分得到目标响应在损失函数中的自适应权重;根据每个队员对目标响应的评分和对模型响应的评分定义偏好边距,计算每个队员的权重,构建最终的损失函数,对大语言模型进行迭代微调。本发明提出了一种新的大语言模型微调算法,它分别通过基于分组的自我博弈和双重自适应权重调节来增强大语言模型的对齐效果。
技术关键词
团队
微调方法
大语言模型
计算机可读取存储介质
数据
计算机可读指令
前三轮
样本
问答系统
机器翻译
微调装置
人类
控制权
定义
文本
参数
摘要
自然语言
意图
处理器
系统为您推荐了相关专利信息
智能监护系统
子模块
患者术后康复
眼压
动态贝叶斯网络
电网设备
剩余寿命预测模型
因子权重
监控方法
频域滤波算法
信息熵
数据嵌入
建筑工程信息化
密度
存储架构系统
氧化铝粒子
计算方法
散射反照率
特性计算技术
氧化铝颗粒