摘要
本发明公开了一种基于语言表达的任意类别计数模型及其计数方法,计数模型包括指代表达理解模块和视觉计数回归模块,指代表达理解模块用来将输入的自然语言或文本描述进行特征标记嵌入、特征提取、特征融合等处理,预测出原始图像中的目标模板信息;视觉计数回归模块用来根据目标模板信息和原始图像进行特征提取和相似性学习,最终输出目标实例在原始图像场景中的预测数量。本发明通过指代表达理解模块来引导零样本计数,能够解析、理解人类自然语言并预测准确的目标模板,通过视觉计数回归模块对目标模板信息和原始图像进行特征提取和相似性学习,实现更一般化与智能化的计数功能,具有节省计算资源、快速识别位置、应用泛化性高的特点。
技术关键词
计数方法
语言编码器
模板特征
语义
交叉注意力机制
浅层特征提取
理解人类自然语言
视觉
图像编码
标记
文本
场景特征
代表
模块
多模态信息
分支
网络
系统为您推荐了相关专利信息
光谱图像分类方法
状态空间模型
空间模块
分段
扫描模块
查询生成方法
数据库查询语句
语义向量
LSTM模型
大语言模型