摘要
本发明提供一种基于场景文本信息引导的红外小目标检测方法,将首先将描述红外图像场景的文本提示引入到现有的红外数据集中,构建文本与图像的配对数据集;然后,通过基于场景文本信息引导的红外小目标检测网络模型,利用图像编码器提取红外图像的视觉特征;利用预训练语言模型将描述场景信息的文本提示映射为嵌入向量,实现文本特征的提取;接着通过内积运算实现图像和文本信息的高层语义特征融合,并计算文本‑图像全局匹配损失引导网络对目标和背景特征分别进行建模;在上采样结构中,通过基于文本特征引导的上下文增强模块,以融合文本和图像的全局和局部特征;将上采样后的特征图经过分割模块处理得到检测结果。
技术关键词
检测网络模型
预训练语言模型
文本编码器
文本特征向量
双线性插值
高层语义特征
场景上下文
图像编码器
上采样
非暂态计算机可读存储介质
多模态特征融合
视觉特征
交叉注意力机制
模块
更新网络参数
深度学习框架
系统为您推荐了相关专利信息
城市供水管网
智能监管方法
监测点
压力
智能设备
对话生成方法
多模态交互
智能客服
意图类别
节点
农作物病虫害
预训练模型
识别方法
计算机程序指令
令牌
图像生成系统
图像解码器
文本编码器
图像生成方法
非暂态计算机可读存储介质