一种基于过程监督强化学习的代码生成方法

AITNT
正文
推荐专利
一种基于过程监督强化学习的代码生成方法
申请号:CN202510468676
申请日期:2025-04-15
公开号:CN120386514B
公开日期:2025-11-25
类型:发明专利
摘要
本发明公开了一种基于过程监督强化学习的代码生成方法,包括:获取原始代码数据集并进行预处理,基于预处理后的原始代码数据集生成若干个修改后的代码片段并自动标注,获得过程监督数据集;其中,预处理包括格式标准化;基于过程监督数据集对过程监督奖励模型进行训练;通过策略模型生成代码片段,基于训练后的过程监督奖励模型获得代码片段的整体奖励信号;基于整体奖励信号对策略模型进行更新。本发明实现了过程监督数据集的自动构建,大幅降低人工标注成本;通过引入过程监督强化学习方法,显著提升了代码生成模型的质量和效率。
技术关键词
代码生成方法 策略 生成代码 数据 预训练语言模型 强化学习方法 处理器 样本 计算机装置 计算机程序产品 信号 自然语言 层级 正确率 可读存储介质 格式 存储器 教师 重构 基准
系统为您推荐了相关专利信息
1
一种近钻头数据采集处理控制系统和控制方法
近钻头 数据传输单元 主控单元 翼肋 驱动单元
2
一种变电站负荷预测方法、装置及终端设备
负荷预测模型 负荷预测方法 企业 居民用电 工业用电
3
一种重症患者生理参数监测及智能预警系统
生理参数监测 智能预警系统 多模态生理 事件检测模型 迁移学习模型
4
一种基于神经网络的伺服电机故障诊断方法及系统
伺服电机 故障诊断系统 故障特征 历史故障数据 故障诊断模型
5
基于半监督学习和双重知识蒸馏的膝骨关节炎辅助诊断方法
辅助诊断方法 半监督学习 注意力 膝骨关节炎 蒸馏
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号