一种智能文档处理领域的非结构化数据的处理方法和系统

AITNT
正文
推荐专利
一种智能文档处理领域的非结构化数据的处理方法和系统
申请号:CN202411889284
申请日期:2024-12-20
公开号:CN119829664A
公开日期:2025-04-15
类型:发明专利
摘要
本发明公开了一种智能文档处理领域的非结构化数据的处理方法及系统,该方法,包括:对待处理的文档进行文件格式识别和内容抽取;将Excel格式文件的结构化数据存入MySQL数据中;将其他格式文件中抽取的文档内容,分为非结构化和结构化数据;将非结构化数据进行全文清洗和分块处理,存储在Milvus向量数据库中;而将结构化数据进行数据清洗和规则库解析;利用大型语言模型,对抽取的文档内容进行深度解析,生成摘要并构建文档树;将文档内容中的结构化数据进行数据清洗和规则库解析后,存储在MySQL数据库中。该方法可实现对非结构化数据的高效处理和智能分析,以便提高数据处理速度、优化资源利用率和增强数据挖掘能力。
技术关键词
智能文档 分块 优化资源利用率 可视化界面 文本 摘要 BERT模型 语句 状态机 表格 字符识别 模块 注意力机制 特征选择 数据分类 答案 计算方法 多任务 数据存储
系统为您推荐了相关专利信息
1
基于大语言模型的智能语音交互方法和装置
大语言模型 文本 关键词 智能语音交互方法 摘要
2
基于AI模型的电力机车检修实训智能分析方法及系统
电力机车检修 智能分析方法 大语言模型 图谱 交互机制
3
基于机器学习的民商案件分类方法及系统
案件数据 分类模型构建 词嵌入向量 分类方法 模型超参数
4
图像生成方法及装置
图像生成模型 图像生成方法 布局 文本检测模型 文本识别模型
5
基于双向视觉语言提示的跨模态遥感图像分类域适应方法
遥感图像分类方法 视觉特征 文本编码器 图像分类模型 更新网络参数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号