基于分组自我博弈和自适应加权的大模型微调方法及装置

正文

推荐专利

申请号：CN202511206228

申请日期：2025-08-27

公开号：CN120745757B

公开日期：2025-11-18

类型：发明专利

摘要

本发明提供一种基于分组自我博弈和自适应加权的大模型微调方法及装置，涉及自然语言处理技术领域。该方法包括：根据大语言模型构建对手团队生成模型响应，根据输入数据、目标响应和模型响应构建偏好数据集；构建主力团队，定义主力团队成员的评分函数，根据偏好数据集和评分函数构建损失函数；根据主力团队中的每个队员对目标响应的评分得到目标响应在损失函数中的自适应权重；根据每个队员对目标响应的评分和对模型响应的评分定义偏好边距，计算每个队员的权重，构建最终的损失函数，对大语言模型进行迭代微调。本发明提出了一种新的大语言模型微调算法，它分别通过基于分组的自我博弈和双重自适应权重调节来增强大语言模型的对齐效果。

技术关键词

团队微调方法大语言模型计算机可读取存储介质数据计算机可读指令前三轮样本问答系统机器翻译微调装置人类控制权定义文本参数摘要自然语言意图处理器

系统为您推荐了相关专利信息

办公用品领用处理方法、装置、设备、存储介质和程序产品

办公用品自动化机器人工位计算机程序产品处理器

基于综合价值分类的远程银行数字人服务方法、设备及介质

服务端问答匹配技术全生命周期管理视频分层

POS收银系统操作日志收集与智能分析方法

智能分析方法 POS收银系统 Elasticsearch索引自然语言大语言模型

一种硅压阻压力传感器稳定性的快速评价方法

硅压阻压力传感器性能测试数据故障传感器评价方法误差

一种基于多模态数据融合与物理约束深度学习的特大型断面轴承钢动态再结晶预测方法和系统

多模态数据融合轴承钢时间戳同步技术融合特征深度神经网络

基于分组自我博弈和自适应加权的大模型微调方法及装置

站点导航

APP 下载