基于知识检索增强的视觉问答方法

AITNT
正文
推荐专利
基于知识检索增强的视觉问答方法
申请号:CN202411513613
申请日期:2024-10-28
公开号:CN119513245A
公开日期:2025-02-25
类型:发明专利
摘要
本发明提供了一种基于知识检索增强的视觉问答方法,涉及计算机视觉和自然语言处理领域,通过使用多模态编码器分别编码多模态查询和知识文本;使用向量点积计算多模态查询与知识文本的特征向量之间的相似度,检索得到多个相关的外部知识;使用轻量级的视觉Transformer模块,从冻结的图像编码器中提取最有用的视觉表征;使用T5的编码器对多个知识段落与图像、问题的联合输入进行独立编码;从取前N个最具代表性的标志串联,输入到T5解码器中进行联合解码,最终生成正确答案。本发明克服了现有方法中的视觉信息丢失和知识利用不足的问题,显著提升了系统在知识密集型视觉问答任务中的表现。
技术关键词
视觉问答方法 图像编码器 多模态 答案 文本段落 视觉特征提取 无缝嵌入 解码器结构 文本编码器 模块 问答系统 计算机视觉
系统为您推荐了相关专利信息
1
基于多模态分析的直流输电状态评估方法及系统
状态评估方法 故障检测 图谱 多模态 直流输电线路
2
一种基于妥协机制的经验增强型多代理辩论系统及方法
答案 机制 轨迹 大语言模型 模块
3
基于多模态深度学习的帕金森病患智能辅助进食系统
多模态深度学习 图像采集单元 摄像头坐标系 三维姿态信息 微调机械
4
一种基于深度学习的结直肠癌MRI图像分割方法
图像分割方法 连续性 成像 参数 肿瘤
5
基于反馈与自纠正的故障诊断暖通大语言模型训练方法
暖通空调系统 大语言模型 故障检测诊断 故障类别 数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号