摘要
本发明属于人工智能与自然语言处理技术领域,公开了基于GRPO奖励函数的NL2SQL模型训练和存储方法及装置。本发明构建了高质量的训练数据集,结合语法校验、执行验证及语义一致性筛选,有效提升模型的训练效果与生成性能;本发明采用GRPO作为基础框架,并设计了覆盖执行准确性、语法合法性、语义相似性与模式链接等多个维度的组合奖励函数;本发明设计阶段性课程学习策略,通过分阶段激活与调整各子奖励函数,引导模型从结构规范逐步过渡到语义理解与执行优化,提升泛化能力;同时引入奖励权重动态调整机制,在SQL查询执行失败时自动调整奖励函数的权重,增强训练反馈的稳定性与敏感度。
技术关键词
存储方法
动态调整机制
自然语言
编辑
语句
模式
数据库结构
抽象语法树
语义角色
语义层面
定义结构
策略
解析器
节点
存储装置
分阶段
实体
存储器
系统为您推荐了相关专利信息
进化方法
评分系统
机器学习模型
大语言模型
自然语言
异构数据处理方法
多智能体协作
配电系统
脚本
配电网系统
知识图谱数据
实体关系提取
分类方法
结构特征提取
构建知识图谱