一种结合优化布局和多模态信息的视觉文档理解方法及系统

AITNT
正文
推荐专利
一种结合优化布局和多模态信息的视觉文档理解方法及系统
申请号:CN202510674216
申请日期:2025-05-23
公开号:CN120656197A
公开日期:2025-09-16
类型:发明专利
摘要
本发明涉及一种结合优化布局和多模态信息的视觉文档理解方法及系统。本方法先通过像素压缩算法计算待处理文档梯度,删除空白冗余区域,输出压缩文档图像;接着对其进行OCR预处理,提取文本与布局信息,并增强文本质量;再运用XY切割算法,经投影、分割等操作优化布局信息;最后将文本信息、优化后的布局信息及压缩文档图像输入视觉大模型,融合多模态特征,输出关键文档信息,完成文档理解。与现有技术相比,本发明具有准确性高等优点。
技术关键词
压缩文档图像 布局 切割算法 压缩算法 文本校正 理解系统 融合多模态特征 视觉特征 预训练语言模型 像素 轮廓 模块 序列 生成随机 语义 冗余 密度 纠错
系统为您推荐了相关专利信息
1
一种基于去噪扩散一致性模型采样的两阶段非刚性图像编辑方法
注意力 图像编辑方法 图像重建 对象属性特征 序列比对算法
2
基于数字孪生的室内生态环境设计方法、系统及存储介质
室内空间 数字孪生模型 室内生态环境 指数 生态恢复
3
一种考虑回溯成本的车间双目标动态过道布置规划方法
免疫克隆算法 设施 物料搬运 阶段 邻域搜索策略
4
基于有限超原子响应库选取的超表面全息优化方法及装置
矩阵 传播算法 电磁仿真 随机梯度下降 表面形状结构
5
一种基于数值模拟的河谷区域风光水能源开发布局优化方法
布局优化方法 搜索算法 汇流 风光 粗糙度参数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号