摘要
本发明涉及人工智能与数据工程技术领域,尤其是一种基于RAG的非结构化数据通用结构化采集方法及系统。本发明首先构建存储业务表的表结构和字段信息的知识库;然后利用大模型对输入的非结构化文本进行指标识别和抽取;接着利用检索增强生成技术,针对每个抽取出的指标,在知识库中检索匹配出多个最相似业务字段;基于输入的非结构化文本以及各指标的最相似的业务字段信息,辅助大语言模型选举出指标在特定业务场景下的最匹配业务字段;最后,结合最匹配业务字段将指标自身的指标值存储到知识库中。本发明适用于针对领域内各业务线通用的指标抽取,能自动化对齐和筛选特定业务场景下的业务字段并入库,实现了一种非结构化数据通用的数据采集方法。
技术关键词
指标
语义向量
大语言模型
字段
业务表
度计算方法
关键字
数据采集方法
文本
置信度阈值
生成技术
采集系统
存储器
处理器
场景
数值
对象