一种结合优化布局和多模态信息的视觉文档理解方法及系统

正文

推荐专利

申请号：CN202510674216

申请日期：2025-05-23

公开号：CN120656197A

公开日期：2025-09-16

类型：发明专利

摘要

本发明涉及一种结合优化布局和多模态信息的视觉文档理解方法及系统。本方法先通过像素压缩算法计算待处理文档梯度，删除空白冗余区域，输出压缩文档图像；接着对其进行OCR预处理，提取文本与布局信息，并增强文本质量；再运用XY切割算法，经投影、分割等操作优化布局信息；最后将文本信息、优化后的布局信息及压缩文档图像输入视觉大模型，融合多模态特征，输出关键文档信息，完成文档理解。与现有技术相比，本发明具有准确性高等优点。

技术关键词

压缩文档图像布局切割算法压缩算法文本校正理解系统融合多模态特征视觉特征预训练语言模型像素轮廓模块序列生成随机语义冗余密度纠错

系统为您推荐了相关专利信息

一种基于去噪扩散一致性模型采样的两阶段非刚性图像编辑方法

注意力图像编辑方法图像重建对象属性特征序列比对算法

基于数字孪生的室内生态环境设计方法、系统及存储介质

室内空间数字孪生模型室内生态环境指数生态恢复

一种考虑回溯成本的车间双目标动态过道布置规划方法

免疫克隆算法设施物料搬运阶段邻域搜索策略

基于有限超原子响应库选取的超表面全息优化方法及装置

矩阵传播算法电磁仿真随机梯度下降表面形状结构

一种基于数值模拟的河谷区域风光水能源开发布局优化方法

布局优化方法搜索算法汇流风光粗糙度参数

一种结合优化布局和多模态信息的视觉文档理解方法及系统

站点导航

APP 下载