摘要
本发明涉及人工智能与情感计算技术领域,具体涉及一种基于适配器融合的音视频双模态情感识别方法及系统;该方法包括:获取视频帧序列和音频信号,并进行预处理;构建情感识别模型;基于双模态特征提取模块依次嵌入空间适配器和全局适配器,依次得到对应模态增强后的空间特征和全局特征;基于全局特征生成对应模态的中间表示,根据中间表示进行特征融合,分别得到对应模态的融合特征;拼接融合特征,进行时序特征的提取,得到最终特征;将最终特征输入至分类器中,得到预测情绪类别,采用损失函数对情感识别模型进行训练,确定最优的情感识别模型;将待识别的视频帧序列和音频信号输入至情感识别模型,输出识别结果。
技术关键词
情感识别模型
音视频双模态
情感识别方法
视频帧
输出特征
适配器结构
融合特征
特征提取模块
音频
序列
时序特征
分类器
编码器
信号
情感计算技术
跨模态
情感识别系统
分支
系统为您推荐了相关专利信息
图像语义分割方法
图像超分辨率重建
图像梯度信息
生成高分辨率
联合损失函数
印刷电路板缺陷
多尺度特征融合
检测印刷电路板
特征融合网络
印刷缺陷检测
齿轮故障诊断方法
故障诊断模型
多尺度特征学习
深度玻尔兹曼机
输出齿轮