基于大型视觉语言模型注意力图的开放式通用感知方法

正文

推荐专利

申请号：CN202410981520

申请日期：2024-07-22

公开号：CN119006886A

公开日期：2024-11-22

类型：发明专利

摘要

本发明公开了一种基于大型视觉语言模型注意力图的开放式通用感知方法，属于计算机视觉技术领域。本发明利用大型视觉语言模型在生成物体类别时，产生对应的特征，使用该特征对应的注意力图作为中间提示，利用SAM进行高精度的物体分割，从而同时获得物体类别和感知结果，以解决开放式感知任务。本发明能够普遍的适用于大多数大型视觉语言模型和基于SAM的改进模型，在最小改变模型框架的基础上，实现更好的开放式感知性能。

技术关键词

编码特征解码器多层卷积网络物体多层注意力计算机视觉技术文本编码器图像编码器多模态矩阵算法键值分词

系统为您推荐了相关专利信息

基于语义的图像聚类方法及装置、存储介质、电子装置

预训练网络样本图像聚类方法重构图像聚类装置

一种在实时监控视频中添加与提取指纹的方法、系统、设备及介质

视频指纹算法格式计算机可执行指令视频解码器指纹特征

一种多屏幕视频同步方法及同步系统

视频同步方法序列偏差多屏幕解码器

融合物理约束的深度学习重力卫星地下水垂向信号分离方法

地下水物理重力数据水文模型

数字孪生电力网络通信方法、装置、电子设备及存储介质

语义特征网络通信方法数字孪生解码网络解码器

基于大型视觉语言模型注意力图的开放式通用感知方法

站点导航

APP 下载