摘要
本发明公开了一种基于音视频对齐多模态模型的情感识别方法及系统,涉及特征识别技术领域,包括,获取音频和视频数据,采用多尺度音频增强与子监督学习提取音频特征,并通过多视角对比学习提取视频特征,通过局部对齐和全局对齐将音频特征与视频特征进行对齐操作;分别计算对齐后音频特征与视频特征单模态注意力进行跨模态特征对齐和特征融合,基于融合后的特征进行情感识别分类;将情感分类结果进行展示,并将分类结果形成记录存储至数据库中。本发明确保音频与视频信号能够在多个层次上进行精确的对齐与融合,并且采用单模态注意力机制进行跨模态特征对齐和融合,显著提高了模型在复杂情感分类任务中的表现。
技术关键词
音频特征
情感识别方法
音视频
多模态
跨模态
多尺度
滑动窗口
梯度下降法
情感特征
数据
情感识别系统
特征识别技术
注意力机制
多视角特征
深度学习模型