摘要
本申请提供了一种语音端点检测方法、装置、电子设备及存储介质,涉及音频处理技术领域。方法包括:基于待检测语音信号和所述待检测语音信号关联的视频信号,提取至少两种特征信息,作为多模态特征信息;将所述多模态特征信息进行特征融合,得到融合特征信息;将所述多模态特征信息和所述融合特征信息输入目标语音端点检测模型,得到所述目标语音端点检测模型的输出结果;根据所述输出结果,确定所述待检测语音信号对应的语音段起点和语音段终点。本申请通过多模态特征融合解决单一模态缺陷,在复杂噪声环境下,能够降低噪声干扰,使得检测结果更加准确。
技术关键词
语音端点检测方法
视频特征信息
音频特征信息
高斯混合隐马尔可夫模型
融合特征
标签
语音端点检测装置
文本
信号
电子设备
多模态特征融合
非语音
终点
语音识别技术
标识
特征提取模块
系统为您推荐了相关专利信息
视频生成模型
编码特征
图像生成网络
注意力机制
图像编码
换头方法
特征提取器
canny边缘检测
特征提取模块
人脸识别模型
金融数据分析方法
支持向量机算法
GARCH模型
强化学习算法
卷积滤波器
多源监测数据
故障识别方法
故障类别
声纹特征
电芯