摘要
本发明提供一种大模型微调方法、装置、电子设备及计算机存储介质,在接收问题信息后,利用策略模型根据问题信息生成候选答案序列;之后,利用参考模型生成评估值序列以及利用包含多维度的奖励函数的奖励模型,生成不同奖励函数下的奖励值序列;再根据所有奖励函数下的奖励值序列进行群体优势评估,得到优势值序列;利用评估值序列来对优势值序列进行差异分析,得到差异分析结果;最终基于差异分析结果对策略模型进行微调,得到优化后的策略模型。通过融合多维奖励机制,有效提升大模型在复杂逻辑与多场景任务中的准确性、逻辑性和鲁棒性。
技术关键词
微调方法
序列
答案
计算机存储介质
策略
正确率
意图识别模型
评价方法
逻辑
电子设备
微调单元
场景
动态
微调装置
处理器
格式
分析单元
存储装置
鲁棒性
系统为您推荐了相关专利信息
库存需求预测方法
管理历史数据
聚类分析算法
分布式文件管理系统
偏差
数据采集模块
灰色关联分析
回归算法
策略
筛选算法
客户端
联邦学习方法
模型更新
多任务学习策略
元学习策略