摘要
本发明提供了一种基于错误反馈的NL2SQL大模型训练数据合成方法、系统及存储介质,该方法包括:步骤1:识别种子问答对中的实体,这些实体包括数据库中的Schema区域以及自然语言中的实体;步骤2:利用RAG技术在知识库中匹配与问题和实体相关的知识;步骤3:根据获得的知识和实体信息生成相应的SQL查询,并将其转化为自然语言问题;步骤4:对生成的SQL问答对进行质量评估,确保NL‑SQL问答对加入训练集,而出现错误的NL‑SQL问答对将反馈至NL‑SQL问答生成环节。本发明的有益效果是:提升了自然语言问题的流畅性和可理解性,确保生成的SQL语句的准确性和与问题的契合性。
技术关键词
自然语言
实体
语句
向量检索技术
合成器
错误检测
数据
语义
可读存储介质
大语言模型
训练集
处理器
表格
阶段
种子
存储器
计算机
条目
分词
记忆
系统为您推荐了相关专利信息
智能交互机器人
交互方法
自然语言理解
可读存储介质
对象
医学知识图谱
医疗诊断方法
多智能体协作
诊断系统
报告
预训练语言模型
语音识别方法
自然语言理解模型
查询意图
语音识别系统