摘要
本发明属于人工智能与多模态情感识别技术领域,公开了一种多模态情感分类模型的训练方法及系统,包括获取视频数据并提取音视频特征;对音视频特征进行软硬混合数据增强获得增强后的音视频特征,将原始的音视频特征和增强后的音视频特征在批次维度上进行加权融合,生成多模态缺失训练数据;对多模态缺失训练数据进行音视频特征提取,将提取的特征进行跨模态特征融合,获得融合后的特征,基于融合后的特征进行情感分类识别;定义损失函数,对模型进行训练,获得训练好的模型。本发明通过软硬混合数据增强策略,生成多样化的训练样本,通过多模态协同增强策略,确保多模态数据的语义一致性,有效提升模型的鲁棒性、泛化能力和情感分类精度。
技术关键词
情感分类模型
音频特征提取
数据
跨模态
情感识别技术
多模态协同
代表
模型训练模块
分类准确率
处理器
特征提取模块
对音视频
鲁棒性
策略
计算机程序产品