摘要
本发明提出了一种基于音频和文本的多模态情感识别方法及应用,属于人工智能计算领域,旨在解决现有情绪识别技术在复杂环境下准确率较低的问题。通过结合语音和文本信息进行预训练,生成语音情感识别模型和文本情感识别模型,并从音频中提取频谱图和MFCC特征,得到高阶音频特征。随后,通过注意力网络融合文本与音频特征,最终输入时序分解因果卷积块进行情绪分类识别。本发明通过多级特征的学习提升了识别的鲁棒性和泛化能力,显著提高了识别准确率,特别是在复杂环境下表现出色。
技术关键词
情感识别方法
语音情感识别
情感识别网络模型
情感识别模型
文本
音频特征
MFCC特征
情感特征
注意力
多标签
时序
情感识别装置
情绪识别技术
网络模块
短时傅里叶变换
融合特征
模型预训练
系统为您推荐了相关专利信息
检索方法
计算机可读指令
索引策略
多模态
检索装置
文本语义分析
语句
意图识别方法
唯一性
文本数据处理技术