摘要
本发明公开了一种基于语义一致性和风格多样性的域泛化语义分割方法,包括以下步骤:S1、基于CLIP视觉编码器和文本编码器进行视觉和文本特征提取;S2、基于语义查询增强器利用图文模态间的语义一致性,建立跨模态语义关联并聚合相关语义特征以增强初始对象查询;S3、基于文本驱动的风格变换模块利用文本嵌入差异,引导图像特征低频幅度谱的变换;S4、通过协同加权风格对比损失和风格聚合损失,加强领域间特征的分离和领域内特征的聚合;S5、基于掩码解码器使用语义查询逐层进行掩码预测、类别预测和查询细化;该方法在各个跨域数据集上实现了显著优于现有方法的最佳性能,同时保持模型的训练开销低、推理速度快,具有显著的实用价值和应用前景。
技术关键词
语义分割方法
风格
文本编码器
图像
索引
视觉特征提取
语义特征
解码器
双曲正切函数
像素
跨模态
全局平均池化
注意力
多尺度特征
特征提取器
多层感知机
对象
系统为您推荐了相关专利信息
佩戴识别方法
佩戴安全帽
人体关键点
相互位置
识别算法
混沌图像加密方法
像素矩阵
混沌伪随机序列
忆阻混沌系统
棋盘
低剂量CT图像
深度学习网络
CT重建方法
多尺度
上采样
媒体资产管理
智能镜头
前端模块
语义场景
特征数据库
毛笔清洗机
轨迹控制系统
神经网络模型
数据项
图像获取单元