摘要
本发明涉及一种基于MFAN的语音情感识别模型及其构建方法,该方法包括:对输入音频进行特征工程并从中得到处理后的音频和log‑mel频谱图;将log‑mel频谱图输入到话语级特征提取模块中,使用卷积块扩大模型感受野以更好提取话语级情感特征;将音频输入到多尺度特征提取模块中使用多尺度注意力机制提取不同尺度的情感特征;将两个模块提取到的不同粒度的特征进行融合,得到具有竞争力的情感特征;将情感特征输入到全连接层中从而得到最终的情感识别结果。通过本发明可以用于解决语音情感识别任务时存在局限性的问题,为以后情感识别任务获得更好的识别效果探索了新的思路。
技术关键词
语音情感识别模型
特征提取模块
情感特征
多尺度注意力机制
多尺度特征提取
音频
特征工程
输入多尺度
信号
滤波器
视野
代表
分辨率
频率
序列
网络
系统为您推荐了相关专利信息
负荷特征
注意力
图像分类方法
样本
三维残差网络
局部空间特征
表情识别方法
关系网络
特征提取模块
光流方法
慢性阻塞性肺病
风险预测模型
风险评估系统
特征提取模块
多层次特征融合
睡眠特征
可穿戴设备
时序特征
睡眠阶段分类
序列