基于多模态多尺度交叉注意力的目标计数方法及系统

正文

推荐专利

申请号：CN202411862383

申请日期：2024-12-17

公开号：CN119785057B

公开日期：2025-09-30

类型：发明专利

摘要

本发明公开了一种基于多模态多尺度交叉注意力的目标计数方法及系统，包括：基于块级视觉嵌入向量和文本嵌入向量，构建相似度矩阵；进而建立基于多分类交叉熵的对比学习损失，以增强块级视觉向量在视觉‑语言模型下的文本配对能力。同时构建包含类型语义信息和数量语义信息的文本嵌入、以及与之维度相同的视觉嵌入张量，经过缩放点积模型的计算，输出注意力分数，并最终得到块级视觉嵌入在文本嵌入向量空间的特征表示。构建了基于双分支Cross‑ViT结构多尺度视觉特征交互模块，实现不同尺度视觉特征间的访问和融合。本发明增强了模型在复杂场景下对不同尺度的目标细节和上下文信息的特征提取性能，为目标计数的下游密度图回归任务提供了良好的视觉编码。

技术关键词

视觉特征计数方法嵌入特征交叉注意力机制模态特征多模态信息文本编码器矩阵语义交互网络文本特征向量图像结构多尺度模块多尺度特征融合

系统为您推荐了相关专利信息

基于扩散模型的建筑物模型重建方法、装置、设备及介质

建筑物模型编码特征线框特征提取模块点云

视频生成的方法、装置、电子设备、存储介质和产品

键特征视频生成模型查询特征标签文本融合特征

一种基于大数据的企业财务风险智能分析方法及系统

智能分析系统特征工程大数据智能分析方法时间序列分析技术

基于知识森林和多模态数据的线路故障诊断方法及装置

知识森林线路故障诊断方法多模态特征检测配电网线路设备

基于多模态大模型的波束预测方法、装置、设备及介质

多模态环境波束图像嵌入嵌入特征终端

基于多模态多尺度交叉注意力的目标计数方法及系统

站点导航

APP 下载