一种基于细粒度适配器的视觉问答方法和系统

正文

推荐专利

申请号：CN202410719064

申请日期：2024-06-05

公开号：CN118607526A

公开日期：2024-09-06

类型：发明专利

摘要

本发明公开了一种基于细粒度适配器的视觉问答方法，其从三个方面提升视觉问答的效果，一方面利用Spacy进行命名实体识别以获取问题中的特殊信息，同时利用Ground‑Dino模型能捕获到图片中与特殊信息相关的细粒度区域；另一方面，利用图文匹配预训练大模型CLIP提取图片的多粒度语义特征，利用语言预训练大模型llama‑7B提取文本语义特征，并利用视觉语义特征提取模块将视觉域迁移到语义域，实现了视觉和语义对齐，使模型兼具视觉感知能力与语义理解能力；最后，利用基于细粒度适配器微调llama‑7B预训练语言模型所得到的多模态模型生成问题的答案，由于适配器体量小，能够轻量级而高效地迁移预训练模型中的知识到具体的视觉问答任务上。

技术关键词

视觉问答方法矩阵图片适配器语义特征视觉特征提取文本答案注意力序列训练语言模型特征提取器命名实体识别样本解码数据特征提取模块

系统为您推荐了相关专利信息

一种基于特征分解的GNSS复杂山区滑坡监测多路径信号非监督学习识别方法

多路径误差学习识别方法轮廓系数非监督矩阵

一种基于企业业务流程地图的端到端流程贯通方法及装置

企业业务流程地图数据库贯通方法阶段贯通装置

一种基于优化卷积与自增强序列去噪的直播推荐方法

直播间数据直播推荐方法序列关系度度量方法

基于3D视觉技术的无序物料识别与定位方法及系统

定位方法场景坐标系视觉对象

基于图注意卷积网络和图池化的Web服务推荐方法

符号服务推荐方法代表节点交叉注意力机制

一种基于细粒度适配器的视觉问答方法和系统

站点导航

APP 下载