一种基于改进SAM视觉分割大模型的场景文本分割方法

正文

推荐专利

申请号：CN202510215767

申请日期：2025-02-26

公开号：CN120375380A

公开日期：2025-07-25

类型：发明专利

摘要

本发明涉及场景文本分割领域，具体是一种基于改进SAM视觉分割大模型的场景文本分割方法，本发明以SAM视觉大模型为基础，通过图像内容感知模块提取文本内容感知特征，文本边缘感知模块提取文本边缘感知特征，并通过文本特征融合模块提取计算文本边缘感知特征图在SAM编码器的每次自注意力计算前与需要注意力计算的向量进行相加来提高SAM在文本分割方面的准确率，并能够在保证泛化性的前提下缩短模型的训练时间。

技术关键词

场景文本分割方法场景文本图像感知特征像素尺寸注意力多层感知机视觉通道更新模型参数编码器坐标图像编码模块上采样频率解码器

系统为您推荐了相关专利信息

音圈马达、摄像头模组和电子设备

磁极音圈马达绕组定子摄像头模组

目标人员在目标场地内的轨迹生成方法

人脸特征向量轨迹生成方法双目摄像机建筑信息模型人脸识别技术

快速通过式毫米波安检图像重建方法及相关设备

安检图像回波网格相位校准数据

一种焊缝特征提取方法

特征提取方法焊缝特征图像处理系统边缘检测工业CCD相机

一种基于UNet算法的面向文本线段检测方法

检测网络模型图像线段检测方法文本生成二值化

一种基于改进SAM视觉分割大模型的场景文本分割方法

站点导航

APP 下载