摘要
本发明提供一种语音质量预测方法、装置、电子设备、存储介质及产品,包括:获取待预测的视频通话结果的音频信号和视频信号;将音频信号输入多尺度音频特征融合模块,得到多尺度音频特征;将视频信号输入多尺度视频特征融合模块,得到多尺度视频特征;通过多尺度视频特征融合模块中的多尺度残差网络对视频信号的各尺度的视频特征进行处理,得到多尺度视频特征;根据多尺度音频特征和多尺度视频特征,预测视频通话结果的语音质量。本发明通过多尺度残差网络,挖掘视频信号中与语音质量相关的尺度和深度特征信息,使得特征信息更加全面多样,并通过结合多尺度视频特征结合多尺度音频特征进行语音质量预测,可以强化特征信息,提高语音质量预测效果。
技术关键词
音频特征
输入多尺度
频域特征
残差网络
语音
融合特征
二维卷积神经网络
三维卷积神经网络
音视频
模块
非暂态计算机可读存储介质
深度特征信息
短时傅里叶变换
信号
电子设备
处理器
强化特征
系统为您推荐了相关专利信息
智能控制器
人体检测传感器
录像
免疫细胞
工作台板
车辆维修数据库
车型
可读存储介质
数据更新
电子设备