摘要
本发明属于人工智能技术领域,具体涉及一种融合上下文学习与链式推理的视觉语言推理方法及系统,方法分两个阶段来进行多模态推理,在第一阶段,结合上下文示例和目标问题识别目标图像的ROI区域;在第二阶段,将目标图像的全局特征和ROI区域、上下文示例的全局特征和ROI特征、目标问题相结合,预测得到最终的文本答案。本发明实现了局部特征提取以及局部特征与全局特征的融合,并结合上下文示例进行阶段性的视觉语言推理,能够提高视觉语言任务的逻辑推理能力和鲁棒性。
技术关键词
局部视觉特征
图像
融合全局
推理方法
推理系统
文本
答案
样本
编码
语义
模型训练模块
参数
局部特征提取
网络
数据
人工智能技术
多模态
鲁棒性
系统为您推荐了相关专利信息
无人机
三维模型
三维点云数据
航拍
图像边缘检测方法
水浴振荡器
样品管
深度学习预测模型
监控方法
变量
真实性验证
评价平台
关键词
图像识别技术
分析文档内容
图像自动识别方法
扫描电子显微镜
残差神经网络
神经网络模型
图像自动识别系统
像素点
图像特征提取
特征提取模型
生成方法
聚类