一种应用于自编程任务的强化学习方法、装置、电子设备及存储介质

AITNT
正文
推荐专利
一种应用于自编程任务的强化学习方法、装置、电子设备及存储介质
申请号:CN202411451709
申请日期:2024-10-17
公开号:CN119576302A
公开日期:2025-03-07
类型:发明专利
摘要
本发明涉及强化学习技术领域,尤其涉及一种应用于自编程任务的强化学习方法、装置、电子设备及存储介质,方法包括:获取应用于自编程任务的示例数据集,并根据示例数据集对任意开源大语言模型进行微调;在微调完成后的大语言模型后连接第一价值输出端和第二价值输出端;通过调节温度参数,鼓励大语言模型针对选定的自编程任务进行多样化代码生成,并收集正例和反例数据;根据生成的多样化代码进行蒙特卡洛树搜索生成一系列文本并记录;利用蒙特卡洛树搜索收集的数据训练大语言模型,以优化其代码生成与评估能力。克服了现有框架在自编程领域的局限性,实现更高效、更精准的代码生成与优化。
技术关键词
蒙特卡洛树搜索 大语言模型 强化学习方法 编程 文本 阶段 节点 模型生成程序 数据 强化学习技术 电子设备 输出端 学习装置 处理器 指令 模块 模拟器 存储器 参数
系统为您推荐了相关专利信息
1
一种视频脚本的生成方法、装置、设备及介质
脚本生成方法 关键词 文本 视频 听觉
2
一种金融大模型生成文本的评测方法及装置
金融 文本 机器学习模型 评测方法 数据
3
面向大语言模型的上下文感知层次指令学习方法及装置
指令学习方法 大语言模型 查询特征 嵌入特征 计算机可读取存储介质
4
一种任务调度方法、装置、中心服务器及存储介质
文本 大语言模型 任务调度方法 阶段 中心服务器
5
基于内外业一体化地灾防治报告智慧化生成方法及系统
地灾防治 工作流 数据采集模块 工程造价预算 模版
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号