基于多模态大模型的目标计数方法及装置

正文

推荐专利

基于多模态大模型的目标计数方法及装置

申请号：CN202510184100

申请日期：2025-02-19

公开号：CN120234556A

公开日期：2025-07-01

类型：发明专利

摘要

本申请涉及计算机视觉技术领域，公开了一种基于多模态大模型的目标计数方法及装置。所述方法通过数目提示词指示需要计数的目标类别，使用特征提取模块提取数目提示词的文本特征和查询图像的图像特征，有效提高了模型提取数目相关特征的能力，从根本上提升了模型对目标计数任务的适配能力和性能。之后将文本特征和图像特征融合，生成融合特征，根据融合特征生成预测密度图，并基于预测密度图获得目标数量的预测值，能够高效预测目标的数量和分布，从而降低了人工干预成本，提高了模型在多场景下的实用性。该方法打破了传统计数技术对目标样本的依赖，显著提高了通用计数算法在自动化系统中的部署效率，具有更强的泛化能力。

技术关键词

计数方法融合特征特征提取模块多模态解码模块密度文本编码器图像编码器交叉注意力机制排序损失适配器样本损失函数优化计算机视觉技术 BERT模型可读存储介质

系统为您推荐了相关专利信息

一种基于轻量级脉冲驱动的事件图像融合语义分割方法

融合语义分割脉冲编码器空间特征提取图像解码器

基于无监督学习的多模态医学图像处理系统及方法

医学图像处理系统无监督学习多模态空间变换网络融合特征

一种基于EEG信号的界面布局生成方法

布局生成方法特征提取模块编码向量元素多层感知机

基于检索增强生成的广告合规性检测方法及装置

合规性检测方法广告特征提取模块多模态特征融合视频特征提取

基于多模态模型的医疗分诊方法及系统

医疗分诊方法多模态数值患者大语言模型

基于多模态大模型的目标计数方法及装置

站点导航

APP 下载