摘要
本发明公开了一种基于大型视觉语言模型注意力图的开放式通用感知方法,属于计算机视觉技术领域。本发明利用大型视觉语言模型在生成物体类别时,产生对应的特征,使用该特征对应的注意力图作为中间提示,利用SAM进行高精度的物体分割,从而同时获得物体类别和感知结果,以解决开放式感知任务。本发明能够普遍的适用于大多数大型视觉语言模型和基于SAM的改进模型,在最小改变模型框架的基础上,实现更好的开放式感知性能。
技术关键词
编码特征
解码器
多层卷积网络
物体
多层注意力
计算机视觉技术
文本编码器
图像编码器
多模态
矩阵
算法
键值
分词
系统为您推荐了相关专利信息
预训练网络
样本
图像聚类方法
重构
图像聚类装置
视频指纹算法
格式
计算机可执行指令
视频解码器
指纹特征
语义特征
网络通信方法
数字孪生
解码网络
解码器