基于大型视觉语言模型注意力图的开放式通用感知方法

AITNT
正文
推荐专利
基于大型视觉语言模型注意力图的开放式通用感知方法
申请号:CN202410981520
申请日期:2024-07-22
公开号:CN119006886A
公开日期:2024-11-22
类型:发明专利
摘要
本发明公开了一种基于大型视觉语言模型注意力图的开放式通用感知方法,属于计算机视觉技术领域。本发明利用大型视觉语言模型在生成物体类别时,产生对应的特征,使用该特征对应的注意力图作为中间提示,利用SAM进行高精度的物体分割,从而同时获得物体类别和感知结果,以解决开放式感知任务。本发明能够普遍的适用于大多数大型视觉语言模型和基于SAM的改进模型,在最小改变模型框架的基础上,实现更好的开放式感知性能。
技术关键词
编码特征 解码器 多层卷积网络 物体 多层注意力 计算机视觉技术 文本编码器 图像编码器 多模态 矩阵 算法 键值 分词
系统为您推荐了相关专利信息
1
基于语义的图像聚类方法及装置、存储介质、电子装置
预训练网络 样本 图像聚类方法 重构 图像聚类装置
2
一种在实时监控视频中添加与提取指纹的方法、系统、设备及介质
视频指纹算法 格式 计算机可执行指令 视频解码器 指纹特征
3
一种多屏幕视频同步方法及同步系统
视频同步方法 序列 偏差 多屏幕 解码器
4
融合物理约束的深度学习重力卫星地下水垂向信号分离方法
地下水 物理 重力 数据 水文模型
5
数字孪生电力网络通信方法、装置、电子设备及存储介质
语义特征 网络通信方法 数字孪生 解码网络 解码器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号