一种基于场景文本信息引导的红外小目标检测方法

AITNT
正文
推荐专利
一种基于场景文本信息引导的红外小目标检测方法
申请号:CN202410745798
申请日期:2024-06-11
公开号:CN118762364A
公开日期:2024-10-11
类型:发明专利
摘要
本发明提供一种基于场景文本信息引导的红外小目标检测方法,将首先将描述红外图像场景的文本提示引入到现有的红外数据集中,构建文本与图像的配对数据集;然后,通过基于场景文本信息引导的红外小目标检测网络模型,利用图像编码器提取红外图像的视觉特征;利用预训练语言模型将描述场景信息的文本提示映射为嵌入向量,实现文本特征的提取;接着通过内积运算实现图像和文本信息的高层语义特征融合,并计算文本‑图像全局匹配损失引导网络对目标和背景特征分别进行建模;在上采样结构中,通过基于文本特征引导的上下文增强模块,以融合文本和图像的全局和局部特征;将上采样后的特征图经过分割模块处理得到检测结果。
技术关键词
检测网络模型 预训练语言模型 文本编码器 文本特征向量 双线性插值 高层语义特征 场景上下文 图像编码器 上采样 非暂态计算机可读存储介质 多模态特征融合 视觉特征 交叉注意力机制 模块 更新网络参数 深度学习框架
系统为您推荐了相关专利信息
1
基于城市供水管网等压线的智能监管方法、装置以及可读存储介质
城市供水管网 智能监管方法 监测点 压力 智能设备
2
一种基于多模态交互与动态知识增强的智能客服对话生成方法
对话生成方法 多模态交互 智能客服 意图类别 节点
3
一种基于高效参数迁移学习的小样本农作物病虫害识别方法及设备
农作物病虫害 预训练模型 识别方法 计算机程序指令 令牌
4
一种基于隐空间融合的全状态图像生成系统及方法
图像生成系统 图像解码器 文本编码器 图像生成方法 非暂态计算机可读存储介质
5
一种多模态的数字人生成方法
面部特征 生成方法 音频编解码 文本编码器 视频
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号