基于GRPO奖励函数的NL2SQL模型训练和存储方法及装置

正文

推荐专利

申请号：CN202511005176

申请日期：2025-07-21

公开号：CN120893513A

公开日期：2025-11-04

类型：发明专利

摘要

本发明属于人工智能与自然语言处理技术领域，公开了基于GRPO奖励函数的NL2SQL模型训练和存储方法及装置。本发明构建了高质量的训练数据集，结合语法校验、执行验证及语义一致性筛选，有效提升模型的训练效果与生成性能；本发明采用GRPO作为基础框架，并设计了覆盖执行准确性、语法合法性、语义相似性与模式链接等多个维度的组合奖励函数；本发明设计阶段性课程学习策略，通过分阶段激活与调整各子奖励函数，引导模型从结构规范逐步过渡到语义理解与执行优化，提升泛化能力；同时引入奖励权重动态调整机制，在SQL查询执行失败时自动调整奖励函数的权重，增强训练反馈的稳定性与敏感度。

技术关键词

存储方法动态调整机制自然语言编辑语句模式数据库结构抽象语法树语义角色语义层面定义结构策略解析器节点存储装置分阶段实体存储器

系统为您推荐了相关专利信息

自动化大语言模型安全测试方法、装置、服务器及存储介质

大语言模型动态更新测试方法轮廓系数代表

一种基于大语言模型多智能体的临床评分系统及其自进化方法

进化方法评分系统机器学习模型大语言模型自然语言

基于多智能体协作的配电系统异构数据处理方法与系统

异构数据处理方法多智能体协作配电系统脚本配电网系统

一种基于深度学习的长文本语义分类方法

语义分类方法语义向量分类器序列节点

一种基于图神经网络的知识图谱分类方法及系统

知识图谱数据实体关系提取分类方法结构特征提取构建知识图谱

基于GRPO奖励函数的NL2SQL模型训练和存储方法及装置

站点导航

APP 下载