摘要
本发明公开了一种基于预训练模型的联合多任务表格语义解析方法,涉及自然语言处理与数据库技术领域。该方法从指定网站爬取SQL语句,利用大语言模型将SQL及表格转为自然语言文本,提取列与表形成正、负样本,将实验数据转为Spider数据集格式,通过提示词模板和少样本框架完成自然语言问题及数据库模式任务;接着构建12层关系感知Transformer架构的MLNaT模型,输入按特定格式拼接的语句与列名,设置掩码语言、列预测和SQL生成三项任务,并进行预训练;最后在Spider数据集上以精确集合匹配率评估,以RAT‑SQL为基线模型。验证了MLNaT模型在列预测和SQL生成方面均优于基准模型。
技术关键词
语义解析方法
预训练模型
多任务
大语言模型
表格
自然语言文本
语句
样本
生成自然语言
数据格式
超参数
数据库技术
关键字
解码器
模板
模式
基线
系统为您推荐了相关专利信息
层级
大语言模型
自动化构建方法
指令
数据获取单元
大语言模型
多层结构技术
子模块
识别方法
企业知识图谱
产品定制服务
产品个性化定制
行业白皮书
空调
图谱