基于多模态信息增强与交互的外部知识视觉问答方法

AITNT
正文
推荐专利
基于多模态信息增强与交互的外部知识视觉问答方法
申请号:CN202410801823
申请日期:2024-06-20
公开号:CN118690852B
公开日期:2025-04-18
类型:发明专利
摘要
本发明涉及一种基于多模态信息增强与交互的外部知识视觉问答方法。所述方法包括:提取原始图像中带有语义信息的视觉特征;处理原始问题得到问题文本嵌入,通过LXMERT模型提取各个特征;基于张量Tucker融合方法计算相似度矩阵,得到自回归提示;基于单模型文本问答模块得到单模态提示;将自回归提示与单模态提示与原始问题建立连接,再次计算得到最终答案。使用原始问题生成自回归提示并利用基于图像描述和原始问题生成单模态提示,提高问题文本信息丰富度;采用基于张量Tucker融合方法进行特征交互,捕获目标与问题之间相关性;将自回归提示与单模态提示与原始问题建立连接,利用递归的答案生成范式加强两个阶段的一致性,使得生成的最终答案准确率较高。
技术关键词
视觉问答方法 多模态信息 视觉特征 标签文本 融合方法 答案 多模态特征 图像块 矩阵 语义 分词 实体 检测器 序列 关系 三元组
系统为您推荐了相关专利信息
1
单目三维视觉定位方法、装置、设备及存储介质
耦合特征 视觉特征 三维视觉定位方法 文本 场景
2
基于物联网的玻璃生产预警系统及方法
玻璃罐 特征提取模块 预警系统 压力 多尺度特征提取
3
一种多源异构劳动监察维权投诉信息数据清洗融合方法
融合方法 多源异构数据 清洗算法 HBase数据库 机器学习分类算法
4
一种水力发电企业生产安全事故报告生成方法
报告生成方法 水力发电 数据采集平台 传感器实时监控 视频图像特征
5
地理时空数据的融合方法、设备和介质
地理时空数据 空间分析算法 BP神经网络 分布式计算框架 融合方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号