摘要
本发明提出一个融合双向交叉注意力和门控机制的多模态反讽识别模型(MSCAG),对比传统反讽识别模型在融合图文特征时存在的瓶颈,现在方法往往未能充分挖掘模态间深层次的交互信息,为了解决这个问题,通过双向交叉注意力机制分别精炼出文本层和图像层上相关的注意力特征,残差连接整合文本注意力特征与图像及文本的基础特征,以及图像注意力特征与文本和图像基础特征,运用门控机制以增强两种模态间的信息交互和关键区域聚焦。通过上下文特征与局部特征联合实现更可靠的反讽识别。本发明为多模态反讽识别提供了创新的方法,具有重要的实际应用价值,可以应用于社交媒体中网民评论反讽识别。
技术关键词
文本
交叉注意力机制
联合损失函数
识别方法
多层注意力机制
情感分析方法
标签预测值
图文
融合特征
序列
更新模型参数
前馈神经网络
全局平均池化
图像编码器
上下文特征
样本
系统为您推荐了相关专利信息
自动语音识别
解码加速方法
语音识别训练
文本
音频
地物类别
图像
多模态特征
融合特征提取
嵌入特征
视频片段检索方法
文本
语义特征
视觉特征
跨模态