基于OCR和大模型结构化PDF文件的方法

正文

推荐专利

申请号：CN202411479900

申请日期：2024-10-23

公开号：CN119003465B

公开日期：2025-01-24

类型：发明专利

摘要

本申请提供基于OCR和大模型结构化PDF文件的方法，其包括：遍历所述PDF文件中的单页PDF，并基于OCR模型对所述单页PDF进行版面分析和内容识别，确定出所述单页PDF的嵌入式图片、所有的纯文本块；基于多模态大语言模型对所述嵌入式图片进行增强处理以针对性的生成增强文本内容；计算所述增强文本内容与所述纯文本块之间的位置关联关系；对所述嵌入式图片及对应的所述增强文本内容、所述纯文本块及对应的文本内容分别进行向量化，得到嵌入式图片描述向量以及纯文本块描述向量；基于所述嵌入式图片描述向量、所述位置关联关系、所述纯文本块描述向量，生成所述单页PDF的结构化数据；基于所述PDF文件中的所有页PDF的结构化数据，生成所述PDF文件的结构化数据。

技术关键词

文本大语言模型节点特征页面图片多模态语义依存分析页面内容字符编辑关系灰度直方图因子注意力数据序列网络表格队列

系统为您推荐了相关专利信息

一种改善湿法隔膜纵向拉伸跑偏的方法

湿法隔膜感应加热辊激光传感器红外热像仪纵向拉伸装置

基于多模态融合的可控视频生成方法及系统

视频生成方法融合特征深度图像数据序列径向基函数网络

基于动态路径自适应图卷积网络的软件缺陷预测方法

软件缺陷预测方法多头注意力机制动态加权损失函数焦点损失函数

基于联合深度学习网络的不良地质类型判识方法及系统

联合深度学习不良地质体判识方法 DNN模型注意力机制

一种基于多模态预测的电网动态调度决策方法、装置、电子设备及存储介质

电网设备调度决策方法多模态特征融合设备特征历史运行数据

基于OCR和大模型结构化PDF文件的方法

站点导航

APP 下载