摘要
本发明公开了一种基于多目标优化文献结构分析方法,涉及人工智能技术领域。包括对文档图提取文档图像中的位置编码特征和图像序列特征,在Transformer层中利用其自注意力机制捕捉文档中每个像素的上下文信息,输出文档结构的多维特征序列;将多维特征序列送入由多层感知器分类器层和线性层组成的两头部结构中,进行文档实例的语义类别预测,并动态生成用于遮罩预测的卷积核;利用逐层特征聚合模块对多维特征序列组合并形成统一的遮罩特征映射;在统一的遮罩特征映射上,基于生成的卷积核执行动态卷积操作,为文档图像的每个分块生成实例遮罩。本发明实现复杂文档布局中元素的实例级分割,彰显了其在实际应用中的可靠性和创新价值。
技术关键词
结构分析方法
多层感知器
图像
序列特征
编码特征
特征金字塔网络
多头注意力机制
分类器
分块
人工智能技术
动态
语义
矩阵
像素
线性
模块
元素
系统为您推荐了相关专利信息
局部视觉特征
全局视觉特征
跨模态
节点
交互特征
三维重构方法
特征点集合
剔除误匹配特征点
三维结构
动态
发言人
进程控制方法
生成字幕
AI服务器
进程控制装置
定位方法
卡尔曼滤波算法
语义分割模型
误差状态
单目摄像头