摘要
本发明公开了一种智能文档处理领域的非结构化数据的处理方法及系统,该方法,包括:对待处理的文档进行文件格式识别和内容抽取;将Excel格式文件的结构化数据存入MySQL数据中;将其他格式文件中抽取的文档内容,分为非结构化和结构化数据;将非结构化数据进行全文清洗和分块处理,存储在Milvus向量数据库中;而将结构化数据进行数据清洗和规则库解析;利用大型语言模型,对抽取的文档内容进行深度解析,生成摘要并构建文档树;将文档内容中的结构化数据进行数据清洗和规则库解析后,存储在MySQL数据库中。该方法可实现对非结构化数据的高效处理和智能分析,以便提高数据处理速度、优化资源利用率和增强数据挖掘能力。
技术关键词
智能文档
分块
优化资源利用率
可视化界面
文本
摘要
BERT模型
语句
状态机
表格
字符识别
模块
注意力机制
特征选择
数据分类
答案
计算方法
多任务
数据存储
系统为您推荐了相关专利信息
电力机车检修
智能分析方法
大语言模型
图谱
交互机制
案件数据
分类模型构建
词嵌入向量
分类方法
模型超参数
图像生成模型
图像生成方法
布局
文本检测模型
文本识别模型
遥感图像分类方法
视觉特征
文本编码器
图像分类模型
更新网络参数