生成NL2SQL高质量去重与精选精调语料的方法及系统

AITNT
正文
推荐专利
生成NL2SQL高质量去重与精选精调语料的方法及系统
申请号:CN202511103990
申请日期:2025-08-07
公开号:CN120994784A
公开日期:2025-11-21
类型:发明专利
摘要
本发明公开生成NL2SQL高质量去重与精选精调语料的方法及系统,属于数据库技术与自然语言处理交叉领域。该方法通过上传项目场景种子语料,设定关键词与查询场景分类的目标参数并求解约束方程计算生成目标,经语义增强后利用大语言模型扩写生成预标注语料,通过执行反馈、AI审核及人工标注、复审形成正负样本和思维链数据集,预计算SQL骨架与SQL‑TQFD指标后,基于去重算法与质量指标排序优选,最终导出数据集。本发明无需大量人工标注与复杂规则模板,能动态生成符合实际项目数据分布的高质量语料,通过自动化审核、去重及质量筛选机制,显著提升语料生成效率与模型训练准确性,降低人工成本且提升了模型精调准确率。
技术关键词
语句 查询场景 项目 关键词 去重算法 数据库表结构 代表 样本 令牌 自然语言 语义 种子 计算方法 格式 指标 结构化查询语言 参数 数据管理模块 答案
系统为您推荐了相关专利信息
1
基于SurrealDB的跨模态数据处理方法和装置
文本 关键词 全文索引 数据处理方法 语音识别模型
2
商场展位租金估价方法
估价方法 随机森林 商场 阶段 展位
3
生态环境智能决策方法、系统、设备及存储介质
智能决策方法 生态 策略 预训练模型 自然语言文本
4
电机标定方法及装置
电机标定方法 搜索算法 轨迹 最佳工作点 电流
5
整合Meta分析提高Landsat数据在大尺度森林生物量估计效率的方法
森林地上生物量 森林生物量 变量 关键词 开源数据库
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号