摘要
本发明公开生成NL2SQL高质量去重与精选精调语料的方法及系统,属于数据库技术与自然语言处理交叉领域。该方法通过上传项目场景种子语料,设定关键词与查询场景分类的目标参数并求解约束方程计算生成目标,经语义增强后利用大语言模型扩写生成预标注语料,通过执行反馈、AI审核及人工标注、复审形成正负样本和思维链数据集,预计算SQL骨架与SQL‑TQFD指标后,基于去重算法与质量指标排序优选,最终导出数据集。本发明无需大量人工标注与复杂规则模板,能动态生成符合实际项目数据分布的高质量语料,通过自动化审核、去重及质量筛选机制,显著提升语料生成效率与模型训练准确性,降低人工成本且提升了模型精调准确率。
技术关键词
语句
查询场景
项目
关键词
去重算法
数据库表结构
代表
样本
令牌
自然语言
语义
种子
计算方法
格式
指标
结构化查询语言
参数
数据管理模块
答案
系统为您推荐了相关专利信息
文本
关键词
全文索引
数据处理方法
语音识别模型
智能决策方法
生态
策略
预训练模型
自然语言文本
森林地上生物量
森林生物量
变量
关键词
开源数据库