摘要
本发明公开了注意力聚合与跨模态图融合的无监督多模态情感识别方法,具体为:步骤1,获取视频样本的音频模态特征、图像模态特征和文本模态特征;步骤2,获取音频模态特征、图像模态特征和文本模态特征对应的音频向量、图像向量、文本向量;步骤3,构建无监督多模态情感识别模型;步骤4,将音频向量、图像向量、文本向量输入到无监督多模态情感识别模型进行训练,得到模型的最优输出作为最终的特征向量进行预测和分类;步骤5,使用训练好的无监督多模态情感识别模型进行情感识别。本发明解决了现有技术无法处理树或图网络的长距离空间依赖关系,不足以捕获句子中的句法依赖关系,导致模型无法充分利用多模态数据的问题。
技术关键词
模态特征
注意力
多模态情感识别
节点特征
跨模态
图像解码器
音频解码器
编码器模块
无监督
音频编码器
代表
文本编码器
系统为您推荐了相关专利信息
融合特征
风险评估方法
森林模型
特征提取技术
主题分布特征
位姿估计方法
多任务
双分支网络
图像匹配
特征提取模块