一种对用于解答数学题目的模型的训练方法及装置

正文

推荐专利

申请号：CN202510833529

申请日期：2025-06-20

公开号：CN120611779A

公开日期：2025-09-09

类型：发明专利

摘要

本说明书实施例提供一种对用于解答数学题目的模型的训练方法及装置，方案包括：利用待训练的模型对多个样本数学题目进行解答，待训练的模型为经过微调后的模型；根据解答结果，确定待训练的模型解答错误的样本数学题目；从解答错误的样本数学题目中确定第一样本数学题目和第二样本数学题目；基于第一样本数学题目，利用预设的强化学习算法，对待训练的模型进行训练，得到预训练模型；预设的强化学习算法的奖励数据基于各个模型解答步骤包含的正确解答步骤的权重计算得到；基于第二样本数学题目，利用预设的强化学习算法，对预训练模型进行训练，得到训练后模型。本说明书实施例可以提高模型训练效率以及训练稳定性，提高模型性能。

技术关键词

强化学习算法数学样本预训练模型数据指令处理器存储计算机程序计算机程序产品训练装置模块可读存储介质存储器

系统为您推荐了相关专利信息

一种基于双曲空间视觉与语言对齐的果蝇行为识别方法

语义向量关键点对齐模块训练样本集特征提取模块

CD播放系统及控制方法

主控模块伺服模块 CD播放系统数模转换模块碟片

传输网网络安全靶场搭建系统

传输网实时数据传输模块应急响应措施场景

基于综合分析评估的配电变压器档位调节方法

配电变压器档位调节方法综合评价体系指标电压

一种基于孟德尔随机化体系的智能写作助手

智能写作多模态模块文本智能助手技术

一种对用于解答数学题目的模型的训练方法及装置

站点导航

APP 下载