一种基于音频和文本的多模态情感识别方法及应用

AITNT
正文
推荐专利
一种基于音频和文本的多模态情感识别方法及应用
申请号:CN202411545406
申请日期:2024-10-31
公开号:CN119517096A
公开日期:2025-02-25
类型:发明专利
摘要
本发明提出了一种基于音频和文本的多模态情感识别方法及应用,属于人工智能计算领域,旨在解决现有情绪识别技术在复杂环境下准确率较低的问题。通过结合语音和文本信息进行预训练,生成语音情感识别模型和文本情感识别模型,并从音频中提取频谱图和MFCC特征,得到高阶音频特征。随后,通过注意力网络融合文本与音频特征,最终输入时序分解因果卷积块进行情绪分类识别。本发明通过多级特征的学习提升了识别的鲁棒性和泛化能力,显著提高了识别准确率,特别是在复杂环境下表现出色。
技术关键词
情感识别方法 语音情感识别 情感识别网络模型 情感识别模型 文本 音频特征 MFCC特征 情感特征 注意力 多标签 时序 情感识别装置 情绪识别技术 网络模块 短时傅里叶变换 融合特征 模型预训练
系统为您推荐了相关专利信息
1
logo检索方法、装置、计算机设备及存储介质
检索方法 计算机可读指令 索引策略 多模态 检索装置
2
一种基于文本语义分析的意图识别方法、系统及存储介质
文本语义分析 语句 意图识别方法 唯一性 文本数据处理技术
3
基于本地知识库的报告自动生成检索增强优化方法和系统
意图 关键字搜索方法 节点 语句 滑动窗口方法
4
一种基于Web技术和深度神经网络的计算机辅助面访方法及系统
Web技术 深度神经网络 音频 影像 校验模块
5
一种基于人工智能的标书查重方法及系统
查重方法 表格特征 文本 多模态 可视化方式
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号