摘要
本发明涉及人工智能技术领域,且公开了一种基于人工智能的多模态文档解析系统,所述解析系统由图像预处理模块、多模态特征提取模块、自然语言处理模块、模态融合与解析模块和文档结构识别模块组成。本发明通过清晰化图像,去除噪声和模糊,使图像质量得到提升,使用掩模来分别提取文本、表格和图像区域,从而精准分离不同的文档内容,将视觉特征与提取的区域信息组合在一起,生成一个综合的特征向量,这样更全面地理解文档的内容,对从图像中提取的文本进行解析,进行语义分析和关键词提取,从而理解文本内容,从解析后的文本中提取出关键词,帮助识别文档的主要主题和关键点,达到了多模态解析文档使解析的结果更精准的有益效果。
技术关键词
解析系统
表达式
文本
标签体系
自然语言
融合图像特征
特征提取模块
关键词
表格
多模态
识别模块
视觉特征提取
图像增强
掩模
图像特征提取
人工智能技术
融合特征
系统为您推荐了相关专利信息
面部表情识别模型
样本
面部表情识别方法
注意力机制
表达式
节点特征
计算机可读存储器
大语言模型
有向无环图
计算机系统
变电站巡检机器
识别方法
多头注意力机制
抄表
视觉特征
自动化测试脚本
智能生成系统
定位策略
多语言
特征自定义