摘要
本发明提出了一种基于混合模型的指向性图像分割方法及系统,属于计算机视觉技术领域,包括:获取图像及文本描述数据集;构建双分支视觉‑语言编码架构对图像进行编码提取若干不同尺度的视觉特征,并同时对文本描述进行编码,提取文本特征;采用多尺度跨模态注意力模块对同一尺度的视觉特征和文本特征进行跨模态融合,生成多模态特征;对各个尺度的多模态特征分别采用分层特征融合模块进行融合得到第一融合特征;采用跨层级信息整合模块进行层间特征的融合得到最终融合特征;采用分割模块对最终融合特征进行预测得到分割后的图像。本发明结合CNN和Transformer架构的优势,以提升指向性图像分割任务的精度和泛化能力。
技术关键词
图像分割方法
融合特征
视觉特征
多模态特征
跨模态
文本
分层特征
多尺度
分支
注意力机制
编码
融合策略
模块
图像分割系统
表达式
计算机视觉技术
层级
系统为您推荐了相关专利信息
医学图像分割模型
医学图像分割方法
注意力
解码器
梯度下降优化算法
空调调控方法
跨模态
文本
适配器技术
设备健康管理
交通预警方法
多源交通数据
依赖特征
语义特征
交通预警装置
图像特征编码
BERT模型
自然语言
样本
跨模态