一种基于RAG的非结构化数据通用结构化采集方法及系统

AITNT
正文
推荐专利
一种基于RAG的非结构化数据通用结构化采集方法及系统
申请号:CN202510947600
申请日期:2025-07-10
公开号:CN120448393A
公开日期:2025-08-08
类型:发明专利
摘要
本发明涉及人工智能与数据工程技术领域,尤其是一种基于RAG的非结构化数据通用结构化采集方法及系统。本发明首先构建存储业务表的表结构和字段信息的知识库;然后利用大模型对输入的非结构化文本进行指标识别和抽取;接着利用检索增强生成技术,针对每个抽取出的指标,在知识库中检索匹配出多个最相似业务字段;基于输入的非结构化文本以及各指标的最相似的业务字段信息,辅助大语言模型选举出指标在特定业务场景下的最匹配业务字段;最后,结合最匹配业务字段将指标自身的指标值存储到知识库中。本发明适用于针对领域内各业务线通用的指标抽取,能自动化对齐和筛选特定业务场景下的业务字段并入库,实现了一种非结构化数据通用的数据采集方法。
技术关键词
指标 语义向量 大语言模型 字段 业务表 度计算方法 关键字 数据采集方法 文本 置信度阈值 生成技术 采集系统 存储器 处理器 场景 数值 对象
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号