摘要
本发明公开了基于视觉语言预训练和多模态协同融合的情感识别方法,属于多模态情感识别技术领域;本发明先通过视觉语言预训练范式使用大规模视觉‑文本对数据集对视觉编码器进行预训练,以提高其视觉特征提取能力;再对视频提取图像帧、骨骼节点、音频,分别输送进各个模态的编码器中,提取多个模态的特征;将骨骼节点特征和视频帧提取的特征通过交叉注意力机制进行融合,以通过人的动作姿态等信息进一步强化视觉特征;最后通过可学习的查询向量和交叉注意力机制,将视觉特征和音频特征融合进查询向量中;预测阶段使用学习得到的查询向量特征进行情感分类。
技术关键词
情感识别方法
交叉注意力机制
Sigmoid函数
短时傅里叶变换
音频特征
视频
节点特征
多模态情感识别
情感类别
均匀采样方法
视觉特征提取
图像
文本编码器
数据
多层感知机
系统为您推荐了相关专利信息
诊断方法
短时傅里叶变换
一维卷积神经网络
时频分析方法
物理
三维点云数据
注意力机制
协同注意力
全局平均池化
关键点特征
高频电流传感器
电缆局放信号
多径干涉
深度学习模型
补偿方法