摘要
本发明提供了一种面向多模态的幽默识别方法,涉及多模态幽默识别技术领域,在一种实现方式中,本发明将引入的外部知识作为单独模态,并与文本、音频和视频模态进行融合。先通过全连接层进行维度对齐,再将其拼接输入到Transformer中学习四种模态之间的交互关系,同时借助交叉注意力机制对模态融合进行了优化,由此解决了外部知识引入和模态融合方案的问题。在另一种实现方式中,通过图注意力网络进行数据增强,来弥补当前数据集数量稀缺的问题,将相关模态进行融合拼接,然后送入到交叉注意力网络中,再通过多头自注意力层进一步融合,最后输入到最大池层获得融合向量的单一特征表示,得到幽默极性的预测概率分布,由此得到更加有效的模态融合。
技术关键词
模态特征
幽默识别方法
幽默特征
交叉注意力机制
人脸图像特征
融合特征
文本特征向量
视觉
节点特征
人脸特征向量
音频特征
多头注意力机制
多模态
前馈神经网络
矩阵
系统为您推荐了相关专利信息
超声波特征
专用墨水
多模态传感器
光源系统
多维特征数据
高层次
模态特征
多尺度特征融合
影像
注意力机制
特征提取模型
视觉
文本
环境图像数据
环境传感器数据
遥感分类方法
激光雷达数据
高层语义特征
融合特征
样本