一种基于过程监督强化学习的代码生成方法

正文

推荐专利

一种基于过程监督强化学习的代码生成方法

申请号：CN202510468676

申请日期：2025-04-15

公开号：CN120386514B

公开日期：2025-11-25

类型：发明专利

摘要

本发明公开了一种基于过程监督强化学习的代码生成方法，包括：获取原始代码数据集并进行预处理，基于预处理后的原始代码数据集生成若干个修改后的代码片段并自动标注，获得过程监督数据集；其中，预处理包括格式标准化；基于过程监督数据集对过程监督奖励模型进行训练；通过策略模型生成代码片段，基于训练后的过程监督奖励模型获得代码片段的整体奖励信号；基于整体奖励信号对策略模型进行更新。本发明实现了过程监督数据集的自动构建，大幅降低人工标注成本；通过引入过程监督强化学习方法，显著提升了代码生成模型的质量和效率。

技术关键词

代码生成方法策略生成代码数据预训练语言模型强化学习方法处理器样本计算机装置计算机程序产品信号自然语言层级正确率可读存储介质格式存储器教师重构基准

系统为您推荐了相关专利信息

一种近钻头数据采集处理控制系统和控制方法

近钻头数据传输单元主控单元翼肋驱动单元

一种变电站负荷预测方法、装置及终端设备

负荷预测模型负荷预测方法企业居民用电工业用电

一种重症患者生理参数监测及智能预警系统

生理参数监测智能预警系统多模态生理事件检测模型迁移学习模型

一种基于神经网络的伺服电机故障诊断方法及系统

伺服电机故障诊断系统故障特征历史故障数据故障诊断模型

基于半监督学习和双重知识蒸馏的膝骨关节炎辅助诊断方法

辅助诊断方法半监督学习注意力膝骨关节炎蒸馏

一种基于过程监督强化学习的代码生成方法

站点导航

APP 下载