摘要
本发明涉及一种结合优化布局和多模态信息的视觉文档理解方法及系统。本方法先通过像素压缩算法计算待处理文档梯度,删除空白冗余区域,输出压缩文档图像;接着对其进行OCR预处理,提取文本与布局信息,并增强文本质量;再运用XY切割算法,经投影、分割等操作优化布局信息;最后将文本信息、优化后的布局信息及压缩文档图像输入视觉大模型,融合多模态特征,输出关键文档信息,完成文档理解。与现有技术相比,本发明具有准确性高等优点。
技术关键词
压缩文档图像
布局
切割算法
压缩算法
文本校正
理解系统
融合多模态特征
视觉特征
预训练语言模型
像素
轮廓
模块
序列
生成随机
语义
冗余
密度
纠错
系统为您推荐了相关专利信息
注意力
图像编辑方法
图像重建
对象属性特征
序列比对算法
室内空间
数字孪生模型
室内生态环境
指数
生态恢复
矩阵
传播算法
电磁仿真
随机梯度下降
表面形状结构