摘要
一种基于自适应超模态和多层注意力的蒙古语多模态情感分析方法,对多模态数据分别提取文本、音频视频特征,再利用门控Transformer编码器分别提取低级文本特征、低级音频特征和低级视频特征;在一个自适应超模态学习层中,以低级文本特征引导低级音频特征和低级视频特征产生中间超模态特征,随后以中间超模态特征作用于低级文本特征并利用一个门控Transformer编码器从提取下一尺度文本特征,实现双向跨模态注意力交互,多次交互得到最终文本特征和最终超模态特征,通过跨模态Transformer得到一个联合的多模态表示,再利用软注意力机制进行加权融合,最终通过全连接层实现多模态情感分类,本发明可大大提升蒙古语多模态情感分析的效果。
技术关键词
模态特征
多层注意力
蒙古语
文本
音频特征
注意力机制
跨模态
编码器
多模态情感分析
矩阵
视频
记忆
加权特征
视觉特征
参数