摘要
本发明涉及语音处理技术领域,可应用于金融科技、医疗健康等业务场景中,公开了一种基于上下文信息的语音情感识别方法、装置、设备及介质,包括:接收原始语音流并生成独立语音片段,识别文本并确定说话人角色类型,提取声学特征指标,生成初步情绪标签,结合历史对话文本生成上下文信息,将上下文信息、初步情绪标签、说话人角色类型及声学特征指标输入多模态融合模块,生成情感判定结果。本发明通过结合语音、文本及角色信息,并基于上下文信息实现多模态融合,能够在复杂对话场景下准确识别和理解各角色的情绪变化,避免了传统方法中单句情感判断误差大、忽视上下文信息的问题,有效提升情感识别的准确性和稳定性。
技术关键词
语音情感识别方法
声学特征
语音情感识别模型
语义分析模型
文本
指标
语音情感识别装置
自动语音识别
多模态情感识别
标签
置信度阈值
生成语音
多模态特征
上下文特征
标记
客服
情感特征
系统为您推荐了相关专利信息
应急救援通道
路径构建方法
火灾
风险预测模型
图谱
供热系统管网
异常事件
异常检测方法
大语言模型
数据
钙化点检测方法
胆管癌
多模态
实时检测系统
超声图像数据
时间优化方法
优化指导系统
行车路线规划
救护车辆
深度强化学习算法