摘要
本发明提供了一种基于自适应特征融合的图像场景文本检测方法。该方法包括:使用ResNet主干网络对待处理的场景文本图像进行多尺度特征(x2,x3,x4,x5)提取,使用特征金字塔网络对多尺度特征(x2,x3,x4,x5)进行初步的多尺度特征融合,输出经过融合的多尺度特征(o2,o3,o4,o5),并输入到特征混迭模块得到多尺度特征(p2,p3,p4,p5);将多尺度特征(p2,p3,p4,p5)进行拼接得到多尺度特征矩阵P;使用通道注意力模块对多尺度特征矩阵P进行自适应特征融合,得到经过融合的多尺度特征Q;对Q进行可微二值化后处理得到概率图和阈值图,根据概率图和阈值图得到待处理的场景文本图像中场景文本检测结果。本发明对多尺度特征从通道维度到空间维度进行特征混迭,有效提高了不同尺度特征的表达能力,提高了文本检测算法的性能。
技术关键词
场景文本图像
特征金字塔网络
场景文本检测方法
注意力
通道
多尺度特征提取
模块
矩阵
因子
像素
阶段
输出特征
元素
算法
尺寸
系统为您推荐了相关专利信息
多视角
编码模块
交叉注意力机制
迁移方法
感知特征
智能门锁系统
猫眼
视频显示方法
视频流
服务器模块