大模型微调方法、装置、电子设备及计算机存储介质

正文

推荐专利

申请号：CN202511272342

申请日期：2025-09-08

公开号：CN120911542A

公开日期：2025-11-07

类型：发明专利

摘要

本发明提供一种大模型微调方法、装置、电子设备及计算机存储介质，在接收问题信息后，利用策略模型根据问题信息生成候选答案序列；之后，利用参考模型生成评估值序列以及利用包含多维度的奖励函数的奖励模型，生成不同奖励函数下的奖励值序列；再根据所有奖励函数下的奖励值序列进行群体优势评估，得到优势值序列；利用评估值序列来对优势值序列进行差异分析，得到差异分析结果；最终基于差异分析结果对策略模型进行微调，得到优化后的策略模型。通过融合多维奖励机制，有效提升大模型在复杂逻辑与多场景任务中的准确性、逻辑性和鲁棒性。

技术关键词

微调方法序列答案计算机存储介质策略正确率意图识别模型评价方法逻辑电子设备微调单元场景动态微调装置处理器格式分析单元存储装置鲁棒性

系统为您推荐了相关专利信息

一种基于多任务去噪扩散隐模型的语码转换语音合成方法

多任务教师语音数据信息处理技术

一种仓库库存需求预测方法、设备及存储介质

库存需求预测方法管理历史数据聚类分析算法分布式文件管理系统偏差

一种基于多特征融合LSTM网络的煤价预测系统

数据采集模块灰色关联分析回归算法策略筛选算法

一种基于大数据的水生生物资源分析方法及系统

生态健康监测点分析方法指标大数据技术

基于差分隐私的自适应联邦学习方法

客户端联邦学习方法模型更新多任务学习策略元学习策略

大模型微调方法、装置、电子设备及计算机存储介质

站点导航

APP 下载