基于OCR和大模型结构化PDF文件的方法

AITNT
正文
推荐专利
基于OCR和大模型结构化PDF文件的方法
申请号:CN202411479900
申请日期:2024-10-23
公开号:CN119003465B
公开日期:2025-01-24
类型:发明专利
摘要
本申请提供基于OCR和大模型结构化PDF文件的方法,其包括:遍历所述PDF文件中的单页PDF,并基于OCR模型对所述单页PDF进行版面分析和内容识别,确定出所述单页PDF的嵌入式图片、所有的纯文本块;基于多模态大语言模型对所述嵌入式图片进行增强处理以针对性的生成增强文本内容;计算所述增强文本内容与所述纯文本块之间的位置关联关系;对所述嵌入式图片及对应的所述增强文本内容、所述纯文本块及对应的文本内容分别进行向量化,得到嵌入式图片描述向量以及纯文本块描述向量;基于所述嵌入式图片描述向量、所述位置关联关系、所述纯文本块描述向量,生成所述单页PDF的结构化数据;基于所述PDF文件中的所有页PDF的结构化数据,生成所述PDF文件的结构化数据。
技术关键词
文本 大语言模型 节点特征 页面图片 多模态 语义依存分析 页面内容 字符 编辑 关系 灰度直方图 因子 注意力 数据 序列 网络 表格 队列
系统为您推荐了相关专利信息
1
一种改善湿法隔膜纵向拉伸跑偏的方法
湿法隔膜 感应加热辊 激光传感器 红外热像仪 纵向拉伸装置
2
基于多模态融合的可控视频生成方法及系统
视频生成方法 融合特征 深度图像数据 序列 径向基函数网络
3
基于动态路径自适应图卷积网络的软件缺陷预测方法
软件缺陷预测方法 多头注意力机制 动态 加权损失函数 焦点损失函数
4
基于联合深度学习网络的不良地质类型判识方法及系统
联合深度学习 不良地质体 判识方法 DNN模型 注意力机制
5
一种基于多模态预测的电网动态调度决策方法、装置、电子设备及存储介质
电网设备 调度决策方法 多模态特征融合 设备特征 历史运行数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号