摘要
本申请实施例提供了一种基于多模态的情感分类方法和装置、电子设备及介质,属于人工智能技术领域,应用于金融场景和医疗场景。该方法包括:计算对话图像特征、对话文本特征及对话音频特征两两模态间的情感偏差分数,根据情感偏差分数计算各模态多头注意力权重,根据各模态多头注意力权重初步聚合多模态对话特征,并聚合初步聚合模态特征及多模态对话特征,以根据最终聚合的目标聚合模态特征进行对话情感分类。本申请实施例通过计算两两模态间的情感偏差分数,并将经过情感偏差分数调整后的权重聚合初步聚合模态特征及多模态对话特征,以实现对话情感分类,能够充分考虑了不同模态间的情感语义信息不平衡问题,提高了情感分类的准确性。
技术关键词
多模态对话
注意力
情感分类模型
音频特征
情感分类方法
偏差
文本
多模态特征
图像
标签
电子设备
数据
医疗场景
可读存储介质
特征提取模块
人工智能技术
分类装置
系统为您推荐了相关专利信息
跟踪方法
图像特征提取
图像分类网络
轨迹
匈牙利匹配算法
电力设备信息
电力设备运行信息
工作特征
频谱特征
工作状态信息
异常检测方法
节点特征
矩阵
异常检测器
节点结构特征
异常检测方法
非易失性存储介质
检测编码器
适配器
计算机可读指令