一种基于人工智能的多模态文档解析系统

AITNT
正文
推荐专利
一种基于人工智能的多模态文档解析系统
申请号:CN202411060030
申请日期:2024-08-02
公开号:CN119131816A
公开日期:2024-12-13
类型:发明专利
摘要
本发明涉及人工智能技术领域,且公开了一种基于人工智能的多模态文档解析系统,所述解析系统由图像预处理模块、多模态特征提取模块、自然语言处理模块、模态融合与解析模块和文档结构识别模块组成。本发明通过清晰化图像,去除噪声和模糊,使图像质量得到提升,使用掩模来分别提取文本、表格和图像区域,从而精准分离不同的文档内容,将视觉特征与提取的区域信息组合在一起,生成一个综合的特征向量,这样更全面地理解文档的内容,对从图像中提取的文本进行解析,进行语义分析和关键词提取,从而理解文本内容,从解析后的文本中提取出关键词,帮助识别文档的主要主题和关键点,达到了多模态解析文档使解析的结果更精准的有益效果。
技术关键词
解析系统 表达式 文本 标签体系 自然语言 融合图像特征 特征提取模块 关键词 表格 多模态 识别模块 视觉特征提取 图像增强 掩模 图像特征提取 人工智能技术 融合特征
系统为您推荐了相关专利信息
1
一种基于对比学习的视角无关面部表情识别方法及系统
面部表情识别模型 样本 面部表情识别方法 注意力机制 表达式
2
克服大语言模型的最大词元限制
节点特征 计算机可读存储器 大语言模型 有向无环图 计算机系统
3
一种变电站巡检机器车自动抄表识别方法
变电站巡检机器 识别方法 多头注意力机制 抄表 视觉特征
4
一种基于半人工的图像人类偏好数据获取的方法
大语言模型 图像生成模型 图像评估 文本 人类
5
自动化测试脚本智能生成系统
自动化测试脚本 智能生成系统 定位策略 多语言 特征自定义
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号