摘要
本发明公开了基于VAFNet的多模态情绪识别方法及系统,方法如下:S1.对视频数据集进行预处理、采样,转化为峰值帧序列;S2.将视频中的音频信号提取为一维时序信号并预处理,得到音频的Mel声谱图;S3.将视频峰值帧序列输入ResNet18模型提取空间特征得到面部空间特征,通过一维卷积整合时间信息,得到视频特征向量;将步骤S2得到的Mel声谱图、处理后的音频信号分别输入OCANet模型和WaveNet,提取谱特征和原始波形特征,得到Mel特征向量和波形特征向量;S4.对提取Mel特征向量、波形特征向量与面部空间特征输入基于交互注意力机制的特征融合模型得到交互特征向量,将Mel特征向量、视频特征向量及交互特征向量进行拼接融合得到多模态特征向量,进行情绪分类,输出情绪分类结果。
技术关键词
情绪识别方法
视频特征向量
声谱
交互注意力
波形
面部关键点
奇异值分解方法
情绪识别系统
序列
矩阵
信号
多模态
音频特征提取
短时傅里叶变换
筛选算法
系统为您推荐了相关专利信息
电刺激系统
恒流源模块
调制电场
仿真子系统
微控制器
参数优化方法
色散光纤
反演模型
可调衰减器
激光器
信号发射控制方法
双稳态
支持向量回归模型
时序特征
全光开关
脉冲幅度调制信号
一体化方法
光电探测器
掺铒光纤放大器
一体化系统
电信号
空间特征提取
注意力机制
视角
特征提取模块