摘要
本申请公开了一种语音活动检测模型训练方法、语音活动检测方法及相关装置,涉及音频处理技术领域,训练方法包括:利用标注有帧级音频类别的第一训练音频,训练得到具有语义完整性判别功能的第一语音活动检测模型,第一训练音频的一音频帧的音频类别为语音、语义不完整处的非语音、语义完整语音后的非语音中的一种;利用标注有帧级音频类别的第二训练音频,辅以第一语音活动检测模型,训练得到能够捕获语音中语义信息的第二语音活动检测模型,第二训练音频的一音频帧的音频类别为语音、非语音中的一种。经由本申请公开的训练方法训练得到的语音活动检测模型能捕获音频的语义信息,进而能够参考语义信息针对音频的每个音频帧给出合理的类别。
技术关键词
模型训练方法
语音活动检测方法
音频编码
语义
判别功能
文本
音频特征
非语音
模型训练装置
计算机可读指令
电子设备
计算机存储介质
模块
存储计算机程序
计算机程序产品
处理器
参数
系统为您推荐了相关专利信息
行驶车辆
停车位
轨迹预测模型
注意力机制
车辆轨迹预测方法
归属识别方法
文本
注意力机制
预训练模型
Softmax函数
多模态
图像处理模型
文本
输电线路运维装置
可读存储介质
识别定位方法
语义分割算法
像素
滑动窗口
图像匹配