摘要
本发明提供一种多模态情感识别方法及装置,涉及人工智能技术领域,该方法包括:通过交叉注意力机制将第一文本模态特征与第一图像模态特征进行融合,生成融合注意力的图像特征,通过交叉注意力机制将第一文本模态特征与第一语音模态特征进行融合,生成融合注意力的语音特征;将融合注意力的语音特征、融合注意力的图像特征、第一文本模态特征送入多层Transformer编码器中进行学习,生成第二语音模态特征、第二图像模态特征、第二文本模态特征,并基于所述第二语音模态特征、所述第二图像模态特征和所述第二文本模态特征进行情感识别,实现了较精准的多模态情感识别。
技术关键词
模态特征
交叉注意力机制
情感识别方法
多模态情感识别
文本
语音特征
图像
双向长短期记忆
计算机可读取存储介质
音频特征
编码器
预训练模型
面部关键点
计算机可读指令
数据
机器学习模型
ResNet网络