一种大模型后训练方法、装置、计算机程序及存储介质

正文

推荐专利

申请号：CN202510975987

申请日期：2025-07-15

公开号：CN120851117A

公开日期：2025-10-28

类型：发明专利

摘要

本公开涉及一种大模型后训练方法、装置、计算机程序及存储介质，该方法包括：获取大模型对同一请求问题生成的包含多个候选答案的输出组；将所述多个候选答案中的至少一个替换为标准答案，得到更新后的输出组；基于更新后的输出组，对所述大模型进行训练。本公开实施例通过动态替换与单阶段训练的结合，使得模型在无需依赖复杂外部模块或人工干预的情况下，高效优化生成策略。

技术关键词

答案错误率非易失性计算机可读存储介质策略传播算法进程训练装置处理器动态参数强度模块存储器阶段电子设备数据因子

系统为您推荐了相关专利信息

一种增量学习增强的集成代理辅助进化算法

进化算法船舶泊位训练集动态

基于PPO-RNN算法的认知干扰决策方法及干扰端

实时状态信息干扰决策方法循环卷积网络策略联合损失函数

一种基于妥协机制的经验增强型多代理辩论系统及方法

答案机制轨迹大语言模型模块

考虑政策约束的新能源场站现货交易优化决策方法及系统

优化决策方法新能源场站加权融合算法策略滑动时间窗

基于大模型的异构工控网络智能防护方法及系统

安全漏洞挖掘智能防护方法异构终端系统网络

一种大模型后训练方法、装置、计算机程序及存储介质

站点导航

APP 下载