摘要
本发明公开了一种多模态情感分析方法和装置,涉及情感分析技术领域,方法包括:将待测多模态情感数据进行特征提取并进行模态对齐,确定对齐文本特征、对齐视频特征和对齐音频特征;基于对齐文本特征分别对对齐视频特征和对齐音频特征进行特征强化,生成强化视频特征和强化音频特征;采用对齐文本特征、强化视频特征和强化音频特征进行跨模态交叉注意力融合,构建交互文本特征、交互视频特征和交互音频特征;对交互文本特征、交互视频特征和交互音频特征进行后期融合后进行情感预测,输出情感分析结果。采用音视频特征强化机制提升音视频模态的特征质量,有效联合跨模态特征交互和多模态晚期融合,从而整体上提升多模态情感分析可靠性。
技术关键词
音频特征
情感分析方法
交互视频
文本
跨模态
多模态情感分析
融合特征
音视频
数据
转换器
情感分析技术
编码
注意力
网络
元素
交叉模块
处理器
系统为您推荐了相关专利信息
共享管理方法
云平台
智慧实验室
时间段
生成设备
图像处理模型
样本
计算机可执行指令
图像编码
图像特征集
施工现场
多功能会议
管理系统
图像
视频会议模块