一种基于改进SAM视觉分割大模型的场景文本分割方法

AITNT
正文
推荐专利
一种基于改进SAM视觉分割大模型的场景文本分割方法
申请号:CN202510215767
申请日期:2025-02-26
公开号:CN120375380A
公开日期:2025-07-25
类型:发明专利
摘要
本发明涉及场景文本分割领域,具体是一种基于改进SAM视觉分割大模型的场景文本分割方法,本发明以SAM视觉大模型为基础,通过图像内容感知模块提取文本内容感知特征,文本边缘感知模块提取文本边缘感知特征,并通过文本特征融合模块提取计算文本边缘感知特征图在SAM编码器的每次自注意力计算前与需要注意力计算的向量进行相加来提高SAM在文本分割方面的准确率,并能够在保证泛化性的前提下缩短模型的训练时间。
技术关键词
场景文本分割方法 场景文本图像 感知特征 像素 尺寸 注意力 多层感知机 视觉 通道 更新模型参数 编码器 坐标 图像编码 模块 上采样 频率 解码器
系统为您推荐了相关专利信息
1
音圈马达、摄像头模组和电子设备
磁极 音圈马达 绕组 定子 摄像头模组
2
目标人员在目标场地内的轨迹生成方法
人脸特征向量 轨迹生成方法 双目摄像机 建筑信息模型 人脸识别技术
3
快速通过式毫米波安检图像重建方法及相关设备
安检图像 回波 网格 相位校准 数据
4
一种焊缝特征提取方法
特征提取方法 焊缝特征 图像处理系统 边缘检测 工业CCD相机
5
一种基于UNet算法的面向文本线段检测方法
检测网络模型 图像 线段检测方法 文本 生成二值化
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号