一种基於多模态融合与块级嵌入的PDF文档智能解析系统及方法

正文

推荐专利

申请号：HK32025105132

申请日期：2025-03-24

公开号：HK30119256A2

公开日期：2025-07-11

类型：发明专利

摘要

本发明公开了一种基於多模态融合与块级嵌入的 PDF 文档智能解析系统及方法。所述方法包括：获取待解析 PDF 文档；提取所述待解析 PDF 文档中的文本信息以及图像；将所述文本信息以及所述图像特徵输入至块级嵌入的多模态语言模型中进行处理，以得到结构化的文本数据、标签以及边界框信息；输出所述结构化的文本数据、所述标签以及所述边界框信息；其中，所述块级嵌入的多模态语言模型是在多模态预训练模型中引入块嵌入，通过结合文本信息和图像，为 PDF 文档中的每个块生成独立的嵌入表示。通过实施本发明的方法可实现高效精准地解析复杂 PDF 文档，整合多模态信息，并提升电子签名场景下合同处理和智能分析精度。

技术关键词

智能解析系统文本多模态信息预训练模型图像标签数据场景精度

系统为您推荐了相关专利信息

基于Mamba的3D医学影像掩码自编码的方法

序列化方法切片图像块医学影像数据编码

一种基于扩散和Mamba融合网络的组织病理图像自动分类方法

组织病理图像自动分类方法自动分类系统人工智能医学图像处理技术乳腺癌亚型

一种面向图像语义通信的多尺度信道编码方法

信道编码方法码率背景图像信息数据语义

一种电力信息软件供应链安全风险自动化测试方法及系统

自动化测试方法电力信息系统度量软件阶段

一种小型智能化苹果分选机

工业相机支架苹果分选机剔除机构图像识别系统分流阀

一种基於多模态融合与块级嵌入的PDF文档智能解析系统及方法

站点导航

APP 下载