一种基于人工智能的多模态文档解析系统

正文

推荐专利

一种基于人工智能的多模态文档解析系统

申请号：CN202411060030

申请日期：2024-08-02

公开号：CN119131816A

公开日期：2024-12-13

类型：发明专利

摘要

本发明涉及人工智能技术领域，且公开了一种基于人工智能的多模态文档解析系统，所述解析系统由图像预处理模块、多模态特征提取模块、自然语言处理模块、模态融合与解析模块和文档结构识别模块组成。本发明通过清晰化图像，去除噪声和模糊，使图像质量得到提升，使用掩模来分别提取文本、表格和图像区域，从而精准分离不同的文档内容，将视觉特征与提取的区域信息组合在一起，生成一个综合的特征向量，这样更全面地理解文档的内容，对从图像中提取的文本进行解析，进行语义分析和关键词提取，从而理解文本内容，从解析后的文本中提取出关键词，帮助识别文档的主要主题和关键点，达到了多模态解析文档使解析的结果更精准的有益效果。

技术关键词

解析系统表达式文本标签体系自然语言融合图像特征特征提取模块关键词表格多模态识别模块视觉特征提取图像增强掩模图像特征提取人工智能技术融合特征

系统为您推荐了相关专利信息

一种基于对比学习的视角无关面部表情识别方法及系统

面部表情识别模型样本面部表情识别方法注意力机制表达式

克服大语言模型的最大词元限制

节点特征计算机可读存储器大语言模型有向无环图计算机系统

一种变电站巡检机器车自动抄表识别方法

变电站巡检机器识别方法多头注意力机制抄表视觉特征

一种基于半人工的图像人类偏好数据获取的方法

大语言模型图像生成模型图像评估文本人类

自动化测试脚本智能生成系统

自动化测试脚本智能生成系统定位策略多语言特征自定义

一种基于人工智能的多模态文档解析系统

站点导航

APP 下载