生成NL2SQL高质量去重与精选精调语料的方法及系统

正文

推荐专利

申请号：CN202511103990

申请日期：2025-08-07

公开号：CN120994784A

公开日期：2025-11-21

类型：发明专利

摘要

本发明公开生成NL2SQL高质量去重与精选精调语料的方法及系统，属于数据库技术与自然语言处理交叉领域。该方法通过上传项目场景种子语料，设定关键词与查询场景分类的目标参数并求解约束方程计算生成目标，经语义增强后利用大语言模型扩写生成预标注语料，通过执行反馈、AI审核及人工标注、复审形成正负样本和思维链数据集，预计算SQL骨架与SQL‑TQFD指标后，基于去重算法与质量指标排序优选，最终导出数据集。本发明无需大量人工标注与复杂规则模板，能动态生成符合实际项目数据分布的高质量语料，通过自动化审核、去重及质量筛选机制，显著提升语料生成效率与模型训练准确性，降低人工成本且提升了模型精调准确率。

技术关键词

语句查询场景项目关键词去重算法数据库表结构代表样本令牌自然语言语义种子计算方法格式指标结构化查询语言参数数据管理模块答案

系统为您推荐了相关专利信息

基于SurrealDB的跨模态数据处理方法和装置

文本关键词全文索引数据处理方法语音识别模型

商场展位租金估价方法

估价方法随机森林商场阶段展位

生态环境智能决策方法、系统、设备及存储介质

智能决策方法生态策略预训练模型自然语言文本

电机标定方法及装置

电机标定方法搜索算法轨迹最佳工作点电流

整合Meta分析提高Landsat数据在大尺度森林生物量估计效率的方法

森林地上生物量森林生物量变量关键词开源数据库

生成NL2SQL高质量去重与精选精调语料的方法及系统

站点导航

APP 下载