摘要
本发明公开了一种基于改进YOLO11开放世界场景下文字检测方法,涉及计算机视觉处理领域,包含以下步骤:构建开放世界场景下文字检测数据集;构建基于YOLO11得开放世界场景下文字检测模型,设计多尺度高效卷积模块,通过使用多个不同尺寸的卷积核来专注于多尺度特征提取与融合,在保持计算效率的同时,增强改进模型对开发世界场景文字检测不同尺度信息的感知能力;将YOLO11特征金字塔池化模块改进为FocalModulation,该模块利用焦点关注机制增强模型对特定区域得特征提取能力,结合局部与全局特征,提升模型对开放世界场景下文字检测得精度,降低模型计算复杂度,提高模型推理速度;采用CIoU作为改进YOLO11的边界框回归损失函数,本发明可以提升开放世界场景下的文字检测精度,对不同尺度和复杂背景下得文字信息目标保持良好得检测性能。
技术关键词
文字检测方法
卷积模块
特征提取能力
特征金字塔
颈部结构
场景文字检测
多尺度特征提取
网络模型训练
长宽比
标签类别
数据
训练集
焦点
计算机视觉
图像
通道
机制
系统为您推荐了相关专利信息
跌倒检测方法
活动特征
注意力
分类器
前馈神经网络
图像编码
文本编码器
样本
采样模块
马尔可夫模型
三维灰度图像
岩心孔隙度
潜山裂缝
三维数字岩心
计算方法
剂量预测方法
生成对抗网络
残差模块
注意力
输入多尺度
排放预测方法
卷积模块
室内外环境参数
皮尔逊相关系数
动态