一种大语言模型的微调方法、装置、存储介质及电子设备

正文

推荐专利

申请号：CN202510363817

申请日期：2025-03-25

公开号：CN120373401A

公开日期：2025-07-25

类型：发明专利

摘要

本说明书实施例公开了一种大语言模型的微调方法，将传统的强化学习阶段的微调训练改进为DPO训练，可将“如何选出奖励最大的响应”这种复杂的强化学习问题简化为“这个响应的奖励高还是低”这种相对简单的二分类问题，从而将大语言模型在强化学习阶段的训练复杂度降低，简化了大语言模型的微调训练，提升了微调训练的效率。

技术关键词

大语言模型样本微调方法指令生成用户微调装置处理器电子设备可读存储介质模块存储器复杂度阶段计算机程序参数

一种大语言模型的微调方法、装置、存储介质及电子设备

站点导航

APP 下载