摘要
本发明公开了一种基于表格式数据的大模型训练数据集构建方法,其包括:步骤1、数据预处理;步骤2、构建基于表头关联的自动化处理方法与提取模板;步骤3、构建可变形模板模型;步骤4、绑定问题类型与字段。本发明运用基于表头关联的自动化处理方法与提取模板减少人工干预,预设问答模板并用正则表达式匹配关键字段,通过字段识别模块自动适配表格格式,再经数据质量评估与反馈机制保障数据质量;提出可变形的模板模型结合动态调整机制,其字段识别、动态调整和映射模块协同确保查询精准;对异构表格数据标准化,自动绑定问题类型与对应字段提升处理效率,并使用基于自然语言的数据增强策略增加数据集的多样性。
技术关键词
表格式数据
关键词
表头
问答模板
字段
识别模块
动态调整机制
标识符
自然语言
生成数据集
语义规则
哈希算法
答案
关键字