基于预训练模型的多模态语音情感识别方法及系统

正文

推荐专利

申请号：CN202411498006

申请日期：2024-10-25

公开号：CN119339743A

公开日期：2025-01-21

类型：发明专利

摘要

本发明提供了一种基于预训练模型的多模态语音情感识别方法，包括如下步骤：步骤1、获取数据集，所述数据集中包括若干数据对，所述数据对包括相对应的文本的数据和音频数据，每个所述数据对设置有情感标签；步骤2、从文本数据中获取文本语义特征，从同一数据对中的音频数据获取音频声学特征和语音情感特征；步骤3、将文本语义特征、音频声学特征和语音情感特征进行特征融合，获得融合特征；步骤4、将融合特征输入至线性分类器当中，通过softmax层后将其输出作为每一种情感的得分，取得分最大值对应的情感标签所对应的情感作为识别结果。该方法并基于注意力机制提出了一种以语音情感为导向的融合策略，显著提高了语音情感的预测准确率。

技术关键词

语音情感识别方法预训练模型情感特征声学特征语义特征语音情感识别系统文本线性分类器音频融合特征注意力编码器编码结构前馈神经网络数据特征提取模块语音特征标签

基于预训练模型的多模态语音情感识别方法及系统

站点导航

APP 下载