摘要
本发明涉及强化学习技术领域,尤其涉及一种应用于自编程任务的强化学习方法、装置、电子设备及存储介质,方法包括:获取应用于自编程任务的示例数据集,并根据示例数据集对任意开源大语言模型进行微调;在微调完成后的大语言模型后连接第一价值输出端和第二价值输出端;通过调节温度参数,鼓励大语言模型针对选定的自编程任务进行多样化代码生成,并收集正例和反例数据;根据生成的多样化代码进行蒙特卡洛树搜索生成一系列文本并记录;利用蒙特卡洛树搜索收集的数据训练大语言模型,以优化其代码生成与评估能力。克服了现有框架在自编程领域的局限性,实现更高效、更精准的代码生成与优化。
技术关键词
蒙特卡洛树搜索
大语言模型
强化学习方法
编程
文本
阶段
节点
模型生成程序
数据
强化学习技术
电子设备
输出端
学习装置
处理器
指令
模块
模拟器
存储器
参数
系统为您推荐了相关专利信息
指令学习方法
大语言模型
查询特征
嵌入特征
计算机可读取存储介质
地灾防治
工作流
数据采集模块
工程造价预算
模版