摘要
本发明公开了一种基于多模态多尺度交叉注意力的目标计数方法及系统,包括:基于块级视觉嵌入向量和文本嵌入向量,构建相似度矩阵;进而建立基于多分类交叉熵的对比学习损失,以增强块级视觉向量在视觉‑语言模型下的文本配对能力。同时构建包含类型语义信息和数量语义信息的文本嵌入、以及与之维度相同的视觉嵌入张量,经过缩放点积模型的计算,输出注意力分数,并最终得到块级视觉嵌入在文本嵌入向量空间的特征表示。构建了基于双分支Cross‑ViT结构多尺度视觉特征交互模块,实现不同尺度视觉特征间的访问和融合。本发明增强了模型在复杂场景下对不同尺度的目标细节和上下文信息的特征提取性能,为目标计数的下游密度图回归任务提供了良好的视觉编码。
技术关键词
视觉特征
计数方法
嵌入特征
交叉注意力机制
模态特征
多模态信息
文本编码器
矩阵
语义
交互网络
文本特征向量
图像
结构多尺度
模块
多尺度特征融合
系统为您推荐了相关专利信息
键特征
视频生成模型
查询特征
标签文本
融合特征
智能分析系统
特征工程
大数据
智能分析方法
时间序列分析技术
知识森林
线路故障诊断方法
多模态特征
检测配电网
线路设备