摘要
本发明公开了一种基于过程监督强化学习的代码生成方法,包括:获取原始代码数据集并进行预处理,基于预处理后的原始代码数据集生成若干个修改后的代码片段并自动标注,获得过程监督数据集;其中,预处理包括格式标准化;基于过程监督数据集对过程监督奖励模型进行训练;通过策略模型生成代码片段,基于训练后的过程监督奖励模型获得代码片段的整体奖励信号;基于整体奖励信号对策略模型进行更新。本发明实现了过程监督数据集的自动构建,大幅降低人工标注成本;通过引入过程监督强化学习方法,显著提升了代码生成模型的质量和效率。
技术关键词
代码生成方法
策略
生成代码
数据
预训练语言模型
强化学习方法
处理器
样本
计算机装置
计算机程序产品
信号
自然语言
层级
正确率
可读存储介质
格式
存储器
教师
重构
基准
系统为您推荐了相关专利信息
负荷预测模型
负荷预测方法
企业
居民用电
工业用电
生理参数监测
智能预警系统
多模态生理
事件检测模型
迁移学习模型
伺服电机
故障诊断系统
故障特征
历史故障数据
故障诊断模型
辅助诊断方法
半监督学习
注意力
膝骨关节炎
蒸馏