摘要
本发明属于深度学习技术在计算机视觉领域,公开一种多模态预训练的指向性分割方法。该方法采用冻结的对比语言图像预训练模型构建整体架构,包括样本初始化、语言编码器、视觉编码器和多图特征加权融合模块,协同实现对图像中指定对象的精确分割。样本初始化模块生成正负样本的文本描述,通过否定词、改变介词和利用大语言模型生成新句子来排除干扰物,确保模型的准确性。图像通过视觉编码器处理,提取深层次特征并进行不完整的反向传播,确保模型参数冻结。最后,在多图特征加权融合模块中,将正负文本特征及多层次特征融合,形成统一特征表示,指导图像分割。该方法有效提升了模型对关键区域和关键对象的理解能力,增强了分割效果。
技术关键词
特征加权融合
语言编码器
视觉特征
样本
文本
图像分割
分割方法
中间层
前馈神经网络
注意力机制
多层次特征融合
模块
多模态
上采样
输出特征
融合特征
系统为您推荐了相关专利信息
肿瘤分子诊断技术
体外诊断标志物
前列腺癌标志物
前列腺增生患者
样本
文本分类算法
超参数
数据
可视化工具
预训练模型
钻探工作
数据智能分析方法
故障预测模型
钻探设备
环境特征值