摘要
本发明公开了一种基于改进YOLO11开放世界场景下文字检测方法,涉及计算机视觉处理领域,包含以下步骤:构建开放世界场景下文字检测数据集;构建基于YOLO11得开放世界场景下文字检测模型,设计多尺度高效卷积模块,通过使用多个不同尺寸的卷积核来专注于多尺度特征提取与融合,在保持计算效率的同时,增强改进模型对开发世界场景文字检测不同尺度信息的感知能力;将YOLO11特征金字塔池化模块改进为FocalModulation,该模块利用焦点关注机制增强模型对特定区域得特征提取能力,结合局部与全局特征,提升模型对开放世界场景下文字检测得精度,降低模型计算复杂度,提高模型推理速度;采用CIoU作为改进YOLO11的边界框回归损失函数,本发明可以提升开放世界场景下的文字检测精度,对不同尺度和复杂背景下得文字信息目标保持良好得检测性能。
技术关键词
文字检测方法
卷积模块
特征提取能力
特征金字塔
颈部结构
场景文字检测
多尺度特征提取
网络模型训练
长宽比
标签类别
数据
训练集
焦点
计算机视觉
图像
通道
机制
系统为您推荐了相关专利信息
复原方法
图像增强
图像归一化方法
生成器网络
肺结节图像
卷积模块
检测模型训练
输出特征
深度神经网络
嵌入式设备
压缩域
星载SAR回波
特征金字塔
动态
参数解码方法
牵引供电系统
历史性能数据
光伏功率预测方法
鲸鱼优化算法
光伏发电模块
负荷监测方法
深度学习模型
非侵入式负荷监测
网络
负荷监测系统