摘要
本发明涉及一种基于蒙特卡洛树搜索的提升大语言模型推理能力方法,包括以下步骤:S1:预设数学问题集及对应标准答案;S2:将解决数学问题的每一个步骤当作一个树节点,整个解题过程生成蒙特卡洛树;S3:基于蒙特卡洛树搜索生成训练数据;S4:对生成的训练数据进行打分;S5:依据打分得到分数构造损失函数,优化该损失函数并更新大语言模型的参数。本发明可以提升大语言模型的推理能力。
技术关键词
蒙特卡洛树搜索
大语言模型
生成训练数据
节点
答案
数学
正确率
参数
系统为您推荐了相关专利信息
预测模型训练方法
融合特征
多源特征
核糖核酸
关联预测方法
时间控制方法
风速
计算方法
多项式
飞行器控制技术
电网系统
数据
电网关键节点
光伏电站
递归神经网络模型