摘要
本发明提出了一种基于典型相关分析的对比学习音视频情绪识别方法,实现步骤为:获取训练样本集和测试样本集;构建基于典型相关分析的对比学习音视频情绪识别网络模型并对其进行迭代训练;获取音视频情绪识别结果。本发明CCA模块通过对图神经网络模块输出的对数梅尔频谱图和标准图像帧集合增强后的图结构的四组嵌入特征进行归一化,实现音频、视频特征在共享特征空间中的语义对齐,并结合基于InfoNCE对比损失的对比学习,拉近了同一样本音频特征和视频特征之间的语义距离,同时推远不同样本音频特征和视频特征之间的语义距离,从而实现音频特征和视频特征的深层次语义对齐,有效提高了音视频情绪识别的准确率。
技术关键词
情绪识别方法
模块
图像
网络
LBP特征
音频特征
嵌入特征
标签
局部二值模式
典型
编码
随机梯度下降
语义
对音视频
训练样本集
级联
系统为您推荐了相关专利信息
在线测试系统
标定数据库
气体监测模块
三维温度场
气体检测单元
喷涂机器人
铁路货车
图案
识别标签
识别车辆信息
评分预测模型
指标
任务分配系统
信息处理方法
数据