基于多模态多尺度交叉注意力的目标计数方法及系统

AITNT
正文
推荐专利
基于多模态多尺度交叉注意力的目标计数方法及系统
申请号:CN202411862383
申请日期:2024-12-17
公开号:CN119785057B
公开日期:2025-09-30
类型:发明专利
摘要
本发明公开了一种基于多模态多尺度交叉注意力的目标计数方法及系统,包括:基于块级视觉嵌入向量和文本嵌入向量,构建相似度矩阵;进而建立基于多分类交叉熵的对比学习损失,以增强块级视觉向量在视觉‑语言模型下的文本配对能力。同时构建包含类型语义信息和数量语义信息的文本嵌入、以及与之维度相同的视觉嵌入张量,经过缩放点积模型的计算,输出注意力分数,并最终得到块级视觉嵌入在文本嵌入向量空间的特征表示。构建了基于双分支Cross‑ViT结构多尺度视觉特征交互模块,实现不同尺度视觉特征间的访问和融合。本发明增强了模型在复杂场景下对不同尺度的目标细节和上下文信息的特征提取性能,为目标计数的下游密度图回归任务提供了良好的视觉编码。
技术关键词
视觉特征 计数方法 嵌入特征 交叉注意力机制 模态特征 多模态信息 文本编码器 矩阵 语义 交互网络 文本特征向量 图像 结构多尺度 模块 多尺度特征融合
系统为您推荐了相关专利信息
1
基于扩散模型的建筑物模型重建方法、装置、设备及介质
建筑物模型 编码特征 线框 特征提取模块 点云
2
视频生成的方法、装置、电子设备、存储介质和产品
键特征 视频生成模型 查询特征 标签文本 融合特征
3
一种基于大数据的企业财务风险智能分析方法及系统
智能分析系统 特征工程 大数据 智能分析方法 时间序列分析技术
4
基于知识森林和多模态数据的线路故障诊断方法及装置
知识森林 线路故障诊断方法 多模态特征 检测配电网 线路设备
5
基于多模态大模型的波束预测方法、装置、设备及介质
多模态环境 波束 图像嵌入 嵌入特征 终端
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号