摘要
本发明涉及网络信息技术领域,尤其涉及一种基于在线树搜索的训练方法、装置、设备及介质,其中,方法包括:基于熵引导树搜索对给定提示信息进行初始化处理,生成引导树根;根据熵值选择引导树根的分叉点,对引导树的分叉点进行扩展处理,得到树结构;利用蒙特卡洛方法计算树结构中的节点值,基于树结构中的节点值计算奖励信号并强化树搜索策略模型。通过树搜索增强探索多样性,利用过程监督提高学习效率,形成一个闭环优化系统,显著提升大语言模型在数学、编程等复杂推理任务上的能力,具有广泛的应用价值。
技术关键词
蒙特卡洛方法
计算机执行指令
树根
节点
在线
策略
网络信息技术
可读存储介质
梯度方法
大语言模型
信号
令牌
训练装置
处理器通信
存储器
平方根
电子设备
模块
系统为您推荐了相关专利信息
在线分析监测系统
智能分析算法
电路板
图像采集模块
多光谱成像
动态预测方法
水位预测值
Attention机制
在线增量学习
GBDT模型