一种基于音频和文本的多模态情感识别方法及应用

正文

推荐专利

申请号：CN202411545406

申请日期：2024-10-31

公开号：CN119517096A

公开日期：2025-02-25

类型：发明专利

摘要

本发明提出了一种基于音频和文本的多模态情感识别方法及应用，属于人工智能计算领域，旨在解决现有情绪识别技术在复杂环境下准确率较低的问题。通过结合语音和文本信息进行预训练，生成语音情感识别模型和文本情感识别模型，并从音频中提取频谱图和MFCC特征，得到高阶音频特征。随后，通过注意力网络融合文本与音频特征，最终输入时序分解因果卷积块进行情绪分类识别。本发明通过多级特征的学习提升了识别的鲁棒性和泛化能力，显著提高了识别准确率，特别是在复杂环境下表现出色。

技术关键词

情感识别方法语音情感识别情感识别网络模型情感识别模型文本音频特征 MFCC特征情感特征注意力多标签时序情感识别装置情绪识别技术网络模块短时傅里叶变换融合特征模型预训练

系统为您推荐了相关专利信息

logo检索方法、装置、计算机设备及存储介质

检索方法计算机可读指令索引策略多模态检索装置

一种基于文本语义分析的意图识别方法、系统及存储介质

文本语义分析语句意图识别方法唯一性文本数据处理技术

基于本地知识库的报告自动生成检索增强优化方法和系统

意图关键字搜索方法节点语句滑动窗口方法

一种基于Web技术和深度神经网络的计算机辅助面访方法及系统

Web技术深度神经网络音频影像校验模块

一种基于人工智能的标书查重方法及系统

查重方法表格特征文本多模态可视化方式

一种基于音频和文本的多模态情感识别方法及应用

站点导航

APP 下载