基于双向增强和多阶监督的text2sql训练语料生成方法及装置

AITNT
正文
推荐专利
基于双向增强和多阶监督的text2sql训练语料生成方法及装置
申请号:CN202411870948
申请日期:2024-12-18
公开号:CN119940527A
公开日期:2025-05-06
类型:发明专利
摘要
本发明公开了一种基于双向增强和多阶监督的text2sql训练语料生成方法及装置,属于自然语言处理技术领域,包括步骤:问题到SQL的增强,从用户处收集自然语言问题,并标注对应的SQL语句,形成种子集合;再进行多阶段监督审查增强;SQL到问题的增强,采用SQL模板,结合数据库表结构和字段,生成通用“问题‑SQL”对;再针对库表中的实体,枚举其可能的取值,并反向代入到问题模板中,生成多样化的问题;最后使用大语言模型对生成的问题进行自然语言重述,确保问题符合中文语法习惯,同时保持原意不变。本发明显著提高了语料生成的效率和质量,从而提高了text2sql模型的适应性和泛化能力。
技术关键词
语料生成方法 大语言模型 数据库表结构 自然语言 SQL模板 语料生成装置 数据库表设计 多阶段 种子 语句 习惯 实体 存储器 处理器
系统为您推荐了相关专利信息
1
一种基于概念的自解释文本分类方法及装置
文本分类器 文本分类方法 文本分类装置 编码特征 抽取器
2
基于自然语言交互的上下文感知模型生成方法及系统
模型生成方法 生成上下文感知 自然语言 逻辑分析 实时业务
3
一种医学长文本问答方法、装置、电子设备及存储介质
问答方法 大语言模型 文本 语义 注意力
4
一种人力资源管理方法及系统
人力资源管理方法 员工 评分机制 任务分配模型 关键词
5
一种基于大语言模型的光缆监测分析方法及系统
文本 监测分析方法 大语言模型 字段 光缆
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号