摘要
本申请涉及计算机视觉技术领域,公开了一种基于多模态大模型的目标计数方法及装置。所述方法通过数目提示词指示需要计数的目标类别,使用特征提取模块提取数目提示词的文本特征和查询图像的图像特征,有效提高了模型提取数目相关特征的能力,从根本上提升了模型对目标计数任务的适配能力和性能。之后将文本特征和图像特征融合,生成融合特征,根据融合特征生成预测密度图,并基于预测密度图获得目标数量的预测值,能够高效预测目标的数量和分布,从而降低了人工干预成本,提高了模型在多场景下的实用性。该方法打破了传统计数技术对目标样本的依赖,显著提高了通用计数算法在自动化系统中的部署效率,具有更强的泛化能力。
技术关键词
计数方法
融合特征
特征提取模块
多模态
解码模块
密度
文本编码器
图像编码器
交叉注意力机制
排序损失
适配器
样本
损失函数优化
计算机视觉技术
BERT模型
可读存储介质
系统为您推荐了相关专利信息
状态分析系统
薄膜开关
多模态数据融合
模态传感器
开关触点状态
多模态对话
追踪方法
文本
卷积神经网络融合
图像编码器
网络入侵检测模型
网络流量数据
编码模块
注意力
解码模块
大语言模型
页面特征
多模态
非结构化文档
页面结构
机器学习技术
个性化推荐引擎
特征选择算法
动态特征提取
学生