基于预训练模型的多模态语音情感识别方法及系统

AITNT
正文
推荐专利
基于预训练模型的多模态语音情感识别方法及系统
申请号:CN202411498006
申请日期:2024-10-25
公开号:CN119339743A
公开日期:2025-01-21
类型:发明专利
摘要
本发明提供了一种基于预训练模型的多模态语音情感识别方法,包括如下步骤:步骤1、获取数据集,所述数据集中包括若干数据对,所述数据对包括相对应的文本的数据和音频数据,每个所述数据对设置有情感标签;步骤2、从文本数据中获取文本语义特征,从同一数据对中的音频数据获取音频声学特征和语音情感特征;步骤3、将文本语义特征、音频声学特征和语音情感特征进行特征融合,获得融合特征;步骤4、将融合特征输入至线性分类器当中,通过softmax层后将其输出作为每一种情感的得分,取得分最大值对应的情感标签所对应的情感作为识别结果。该方法并基于注意力机制提出了一种以语音情感为导向的融合策略,显著提高了语音情感的预测准确率。
技术关键词
语音情感识别方法 预训练模型 情感特征 声学特征 语义特征 语音情感识别系统 文本 线性分类器 音频 融合特征 注意力编码器 编码结构 前馈神经网络 数据 特征提取模块 语音特征 标签
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号