一种基于改进YOLO11开放世界场景下文字检测方法

正文

推荐专利

申请号：CN202411826752

申请日期：2024-12-12

公开号：CN119763091A

公开日期：2025-04-04

类型：发明专利

摘要

本发明公开了一种基于改进YOLO11开放世界场景下文字检测方法，涉及计算机视觉处理领域，包含以下步骤：构建开放世界场景下文字检测数据集；构建基于YOLO11得开放世界场景下文字检测模型，设计多尺度高效卷积模块,通过使用多个不同尺寸的卷积核来专注于多尺度特征提取与融合，在保持计算效率的同时，增强改进模型对开发世界场景文字检测不同尺度信息的感知能力；将YOLO11特征金字塔池化模块改进为FocalModulation,该模块利用焦点关注机制增强模型对特定区域得特征提取能力，结合局部与全局特征，提升模型对开放世界场景下文字检测得精度，降低模型计算复杂度，提高模型推理速度；采用CIoU作为改进YOLO11的边界框回归损失函数，本发明可以提升开放世界场景下的文字检测精度，对不同尺度和复杂背景下得文字信息目标保持良好得检测性能。

技术关键词

文字检测方法卷积模块特征提取能力特征金字塔颈部结构场景文字检测多尺度特征提取网络模型训练长宽比标签类别数据训练集焦点计算机视觉图像通道机制

系统为您推荐了相关专利信息

一种基于深度学习的肺结节图像增强与复原方法

复原方法图像增强图像归一化方法生成器网络肺结节图像

一种在量化感知训练中目标检测模型的处理方法

卷积模块检测模型训练输出特征深度神经网络嵌入式设备

一种基于锚线动态生成的SAR距离压缩域舰船目标检测方法

压缩域星载SAR回波特征金字塔动态参数解码方法

牵引供电系统的光伏功率预测方法、装置、终端及介质

牵引供电系统历史性能数据光伏功率预测方法鲸鱼优化算法光伏发电模块

一种基于Mamba-图卷积网络的非侵入式负荷监测方法及系统

负荷监测方法深度学习模型非侵入式负荷监测网络负荷监测系统

一种基于改进YOLO11开放世界场景下文字检测方法

站点导航

APP 下载