摘要
本发明公开了一种基于多模态自适应融合的情感识别方法、系统、设备及存储介质,涉及人工智能技术领域,方法包括:选取预训练模型分别提取音频和视频的原始特征,音频用卷积层初步提取,视频经多模块处理并保留时序信息。接着构建注意力模块生成注意力矩阵和交互特征,用该矩阵调整原始特征。再将加权融合后的特征输入卷积网络提取高级时序特征,之后对其在时间维度池化压缩,将音频和视频特征拼接,最后送入全连接层分类器得出情感分类结果;本发明能够动态调整不同特征的权重,从而有效融合音频和视觉特征,以提升情感识别的准确性和鲁棒性,在加权召回率和未加权召回率方面均表现出显著提升,且具有较高的计算效率和可扩展性。
技术关键词
情感识别方法
时序特征
交互特征
多模态
计算机可执行指令
视觉特征
时间序列特征
矩阵
视频时序信息
特征提取模块
情感识别系统
视频特征提取
音频特征提取
多头注意力机制
系统为您推荐了相关专利信息
多模态
非易失性存储介质
计算机可读指令
对象
视频流
图像拼接方法
拼接缝隙
拉普拉斯金字塔
像素点
特征点
教学系统
嫌疑人
生成优化建议
策略
多模态注意力
数字孪生模型
执行机构控制器
多模态传感器
综合效能
深度强化学习算法