摘要
本申请公开一种语音质检方法、装置、计算机设备及存储介质,属于人工智能技术领域,应用于金融、健康医疗养老等领域的语音质检场景。本申请通过引入多模态特征融合技术,通过提取文本的上下文语义特征和语音的声学特征,并结合预训练情绪识别模型获取情绪特征,实现从语义、声学和情绪三个维度对语音数据的全面理解,通过对三类特征向量进行深度融合,能够更充分地挖掘语音中的质量问题,相较于传统仅依赖文本或声学特征的方法,本申请在文本或声学特征的基础上结合情绪特征实现多模态特征,能够更全面、细致地反映语音内容所蕴含的信息,从而提升语音质检的准确率与实用性,满足智能客服、语音审计等应用场景对高质量自动质检的需求。
技术关键词
语音质检方法
情绪识别模型
质检模型
多模态特征融合
计算机可读指令
文本
分析器
上下文语义信息
语音声学特征
情绪特征
计算机设备
预训练语言模型
数据
自动质检
医疗养老
识别模块
系统为您推荐了相关专利信息
潜力预测方法
工业
计算机可读指令
日负荷曲线
潜力预测技术
图像风格转换方法
点云特征
视觉特征
语义特征
计算机可读指令
图像采集方法
数据传输线
控制芯片
信号线
计算机可读指令
乘员
紧急呼叫系统
车辆控制系统
视觉算法
紧急呼叫方法
识别视频数据
编码器
识别方法
多模态特征融合
时间序列特征