摘要
本公开提出一种端到端的文档检测方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域。具体实现方案为:将目标文档对应的图像进行特征提取,得到图像特征序列;对目标文档进行段落检测,确定每个段落对应的检测框的位置及尺寸参数;根据每个检测框的位置及尺寸参数,确定目标文档对应的文本特征序列;将图像特征序列及文本特征序列进行融合解码,得到目标文档的阅读顺序。
技术关键词
文档检测方法
序列
解码模块
文本
图像块
颜色
编码模块
参数
滑动窗口
尺寸
线条
电子设备
人工智能技术
计算机程序产品
计算机视觉
处理器通信
系统为您推荐了相关专利信息
生成运行数据
操作系统内核
一元线性回归模型
平均等待时间
指数
多模态
设备状态数据
安全隐患检测方法
文本特征向量
文字编码器
结构化存储方法
交互特征
word2vec模型
多层次特征
程序