基于分组自我博弈和自适应加权的大模型微调方法及装置

AITNT
正文
推荐专利
基于分组自我博弈和自适应加权的大模型微调方法及装置
申请号:CN202511206228
申请日期:2025-08-27
公开号:CN120745757B
公开日期:2025-11-18
类型:发明专利
摘要
本发明提供一种基于分组自我博弈和自适应加权的大模型微调方法及装置,涉及自然语言处理技术领域。该方法包括:根据大语言模型构建对手团队生成模型响应,根据输入数据、目标响应和模型响应构建偏好数据集;构建主力团队,定义主力团队成员的评分函数,根据偏好数据集和评分函数构建损失函数;根据主力团队中的每个队员对目标响应的评分得到目标响应在损失函数中的自适应权重;根据每个队员对目标响应的评分和对模型响应的评分定义偏好边距,计算每个队员的权重,构建最终的损失函数,对大语言模型进行迭代微调。本发明提出了一种新的大语言模型微调算法,它分别通过基于分组的自我博弈和双重自适应权重调节来增强大语言模型的对齐效果。
技术关键词
团队 微调方法 大语言模型 计算机可读取存储介质 数据 计算机可读指令 前三轮 样本 问答系统 机器翻译 微调装置 人类 控制权 定义 文本 参数 摘要 自然语言 意图 处理器
系统为您推荐了相关专利信息
1
办公用品领用处理方法、装置、设备、存储介质和程序产品
办公用品自动化 机器人 工位 计算机程序产品 处理器
2
基于综合价值分类的远程银行数字人服务方法、设备及介质
服务端 问答匹配技术 全生命周期管理 视频 分层
3
POS收银系统操作日志收集与智能分析方法
智能分析方法 POS收银系统 Elasticsearch索引 自然语言 大语言模型
4
一种硅压阻压力传感器稳定性的快速评价方法
硅压阻压力传感器 性能测试数据 故障传感器 评价方法 误差
5
一种基于多模态数据融合与物理约束深度学习的特大型断面轴承钢动态再结晶预测方法和系统
多模态数据融合 轴承钢 时间戳同步技术 融合特征 深度神经网络
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号