基于知识检索增强的视觉问答方法

正文

推荐专利

基于知识检索增强的视觉问答方法

申请号：CN202411513613

申请日期：2024-10-28

公开号：CN119513245A

公开日期：2025-02-25

类型：发明专利

摘要

本发明提供了一种基于知识检索增强的视觉问答方法，涉及计算机视觉和自然语言处理领域，通过使用多模态编码器分别编码多模态查询和知识文本；使用向量点积计算多模态查询与知识文本的特征向量之间的相似度，检索得到多个相关的外部知识；使用轻量级的视觉Transformer模块，从冻结的图像编码器中提取最有用的视觉表征；使用T5的编码器对多个知识段落与图像、问题的联合输入进行独立编码；从取前N个最具代表性的标志串联，输入到T5解码器中进行联合解码，最终生成正确答案。本发明克服了现有方法中的视觉信息丢失和知识利用不足的问题，显著提升了系统在知识密集型视觉问答任务中的表现。

技术关键词

视觉问答方法图像编码器多模态答案文本段落视觉特征提取无缝嵌入解码器结构文本编码器模块问答系统计算机视觉

系统为您推荐了相关专利信息

基于多模态分析的直流输电状态评估方法及系统

状态评估方法故障检测图谱多模态直流输电线路

一种基于妥协机制的经验增强型多代理辩论系统及方法

答案机制轨迹大语言模型模块

基于多模态深度学习的帕金森病患智能辅助进食系统

多模态深度学习图像采集单元摄像头坐标系三维姿态信息微调机械

一种基于深度学习的结直肠癌MRI图像分割方法

图像分割方法连续性成像参数肿瘤

基于反馈与自纠正的故障诊断暖通大语言模型训练方法

暖通空调系统大语言模型故障检测诊断故障类别数据

基于知识检索增强的视觉问答方法

站点导航

APP 下载