基于GRPO奖励函数的NL2SQL模型训练和存储方法及装置

AITNT
正文
推荐专利
基于GRPO奖励函数的NL2SQL模型训练和存储方法及装置
申请号:CN202511005176
申请日期:2025-07-21
公开号:CN120893513A
公开日期:2025-11-04
类型:发明专利
摘要
本发明属于人工智能与自然语言处理技术领域,公开了基于GRPO奖励函数的NL2SQL模型训练和存储方法及装置。本发明构建了高质量的训练数据集,结合语法校验、执行验证及语义一致性筛选,有效提升模型的训练效果与生成性能;本发明采用GRPO作为基础框架,并设计了覆盖执行准确性、语法合法性、语义相似性与模式链接等多个维度的组合奖励函数;本发明设计阶段性课程学习策略,通过分阶段激活与调整各子奖励函数,引导模型从结构规范逐步过渡到语义理解与执行优化,提升泛化能力;同时引入奖励权重动态调整机制,在SQL查询执行失败时自动调整奖励函数的权重,增强训练反馈的稳定性与敏感度。
技术关键词
存储方法 动态调整机制 自然语言 编辑 语句 模式 数据库结构 抽象语法树 语义角色 语义层面 定义结构 策略 解析器 节点 存储装置 分阶段 实体 存储器
系统为您推荐了相关专利信息
1
自动化大语言模型安全测试方法、装置、服务器及存储介质
大语言模型 动态更新 测试方法 轮廓系数 代表
2
一种基于大语言模型多智能体的临床评分系统及其自进化方法
进化方法 评分系统 机器学习模型 大语言模型 自然语言
3
基于多智能体协作的配电系统异构数据处理方法与系统
异构数据处理方法 多智能体协作 配电系统 脚本 配电网系统
4
一种基于深度学习的长文本语义分类方法
语义分类方法 语义向量 分类器 序列 节点
5
一种基于图神经网络的知识图谱分类方法及系统
知识图谱数据 实体关系提取 分类方法 结构特征提取 构建知识图谱
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号