摘要
本发明公开了一种基于双向增强和多阶监督的text2sql训练语料生成方法及装置,属于自然语言处理技术领域,包括步骤:问题到SQL的增强,从用户处收集自然语言问题,并标注对应的SQL语句,形成种子集合;再进行多阶段监督审查增强;SQL到问题的增强,采用SQL模板,结合数据库表结构和字段,生成通用“问题‑SQL”对;再针对库表中的实体,枚举其可能的取值,并反向代入到问题模板中,生成多样化的问题;最后使用大语言模型对生成的问题进行自然语言重述,确保问题符合中文语法习惯,同时保持原意不变。本发明显著提高了语料生成的效率和质量,从而提高了text2sql模型的适应性和泛化能力。
技术关键词
语料生成方法
大语言模型
数据库表结构
自然语言
SQL模板
语料生成装置
数据库表设计
多阶段
种子
语句
习惯
实体
存储器
处理器
系统为您推荐了相关专利信息
文本分类器
文本分类方法
文本分类装置
编码特征
抽取器
模型生成方法
生成上下文感知
自然语言
逻辑分析
实时业务
人力资源管理方法
员工
评分机制
任务分配模型
关键词