摘要
本发明提供了一种基于解缠表示学习的多模态情感分析方法,包括:获取多模态情感分析数据集,并提取文本、音频和视频的特征;构建表征学习网络,提取私有特征和共享特征,并通过对抗学习优化及时间平滑度约束进行处理;在不同语言尺度的引导下,融合音频和视频的私有特征;通过跨模态注意力和门控机制进一步融合文本、音频和视频特征;最后将融合特征输入至情感分析模块,结合情感分类或回归任务,生成情感预测结果。本发明不仅考虑音频与视频特征在连续时间上的一致性,有效减少冗余信息并保证时间维度一致性,还在文本引导下实现音频和视频特征的深度融合,显著提升了跨模态融合的效果。
技术关键词
融合特征
音频特征
视频
文本
注意力机制
编码器
滑动平均值
情感分析方法
矩阵
多模态情感分析
平滑度
跨模态
参数
分析模块
面部特征
损失函数优化
多模态特征
多层感知器
系统为您推荐了相关专利信息
卷积注意力网络
文本分类方法
文本分类模型
结点
标签
表面缺陷检测方法
钢铁
表面缺陷图像
深度回归模型
注意力机制
注意力机制
跨模态
阿尔茨海默
融合方法
数据特征提取
购买意向预测方法
多模态信息
序列
注视点
计算机可存储介质