摘要
本申请提供基于OCR和大模型结构化PDF文件的方法,其包括:遍历所述PDF文件中的单页PDF,并基于OCR模型对所述单页PDF进行版面分析和内容识别,确定出所述单页PDF的嵌入式图片、所有的纯文本块;基于多模态大语言模型对所述嵌入式图片进行增强处理以针对性的生成增强文本内容;计算所述增强文本内容与所述纯文本块之间的位置关联关系;对所述嵌入式图片及对应的所述增强文本内容、所述纯文本块及对应的文本内容分别进行向量化,得到嵌入式图片描述向量以及纯文本块描述向量;基于所述嵌入式图片描述向量、所述位置关联关系、所述纯文本块描述向量,生成所述单页PDF的结构化数据;基于所述PDF文件中的所有页PDF的结构化数据,生成所述PDF文件的结构化数据。
技术关键词
文本
大语言模型
节点特征
页面图片
多模态
语义依存分析
页面内容
字符
编辑
关系
灰度直方图
因子
注意力
数据
序列
网络
表格
队列
系统为您推荐了相关专利信息
湿法隔膜
感应加热辊
激光传感器
红外热像仪
纵向拉伸装置
视频生成方法
融合特征
深度图像数据
序列
径向基函数网络
软件缺陷预测方法
多头注意力机制
动态
加权损失函数
焦点损失函数
联合深度学习
不良地质体
判识方法
DNN模型
注意力机制
电网设备
调度决策方法
多模态特征融合
设备特征
历史运行数据