基于双向增强和多阶监督的text2sql训练语料生成方法及装置

正文

推荐专利

申请号：CN202411870948

申请日期：2024-12-18

公开号：CN119940527A

公开日期：2025-05-06

类型：发明专利

摘要

本发明公开了一种基于双向增强和多阶监督的text2sql训练语料生成方法及装置，属于自然语言处理技术领域，包括步骤：问题到SQL的增强，从用户处收集自然语言问题，并标注对应的SQL语句，形成种子集合；再进行多阶段监督审查增强；SQL到问题的增强，采用SQL模板，结合数据库表结构和字段，生成通用“问题‑SQL”对；再针对库表中的实体，枚举其可能的取值，并反向代入到问题模板中，生成多样化的问题；最后使用大语言模型对生成的问题进行自然语言重述，确保问题符合中文语法习惯，同时保持原意不变。本发明显著提高了语料生成的效率和质量，从而提高了text2sql模型的适应性和泛化能力。

技术关键词

语料生成方法大语言模型数据库表结构自然语言 SQL模板语料生成装置数据库表设计多阶段种子语句习惯实体存储器处理器

系统为您推荐了相关专利信息

一种基于概念的自解释文本分类方法及装置

文本分类器文本分类方法文本分类装置编码特征抽取器

基于自然语言交互的上下文感知模型生成方法及系统

模型生成方法生成上下文感知自然语言逻辑分析实时业务

一种医学长文本问答方法、装置、电子设备及存储介质

问答方法大语言模型文本语义注意力

一种人力资源管理方法及系统

人力资源管理方法员工评分机制任务分配模型关键词

一种基于大语言模型的光缆监测分析方法及系统

文本监测分析方法大语言模型字段光缆

基于双向增强和多阶监督的text2sql训练语料生成方法及装置

站点导航

APP 下载