摘要
本发明提供了一种基于跨模态隐式局部学习的问答推理方法及系统,涉及自然语言处理技术领域。方法包括:获取训练特征数据集,对训练特征数据集进行配对,得到若干样本,每对样本都由图像、图像对应的问题描述文本和问题对应的答案组成。提取图像的图像特征,对问题描述文本进行掩码得到掩码问题描述文本;使用Transformer编码器对掩码问题描述文本进行特征提取,得到掩码问题描述文本特征。构建跨模态融合模块,将图像特征与掩码问题描述文本特征作为跨模态融合模块的输入,由掩码预测模块预测被掩码替换的字符。计算预测被掩码替换的字符与真实字符的相似度,设计整体优化目标函数对掩码预测模块进行优化。本发明在图像问答、物体识别、行人检索领域均有良好的应用前景。
技术关键词
跨模态
文本
推理方法
字符
训练特征
图像块特征
交叉注意力机制
编码器
模块
特征提取单元
样本
答案
推理系统
多层感知机
序列
系统为您推荐了相关专利信息
统一接口网关
可视化大屏
多模态
布局优化算法
支撑模块
语音控制指令
设备语音控制方法
自然语言识别
音频特征提取
家居设备控制