摘要
本发明涉及场景文本分割领域,具体是一种基于改进SAM视觉分割大模型的场景文本分割方法,本发明以SAM视觉大模型为基础,通过图像内容感知模块提取文本内容感知特征,文本边缘感知模块提取文本边缘感知特征,并通过文本特征融合模块提取计算文本边缘感知特征图在SAM编码器的每次自注意力计算前与需要注意力计算的向量进行相加来提高SAM在文本分割方面的准确率,并能够在保证泛化性的前提下缩短模型的训练时间。
技术关键词
场景文本分割方法
场景文本图像
感知特征
像素
尺寸
注意力
多层感知机
视觉
通道
更新模型参数
编码器
坐标
图像编码
模块
上采样
频率
解码器
系统为您推荐了相关专利信息
人脸特征向量
轨迹生成方法
双目摄像机
建筑信息模型
人脸识别技术
特征提取方法
焊缝特征
图像处理系统
边缘检测
工业CCD相机
检测网络模型
图像
线段检测方法
文本
生成二值化