摘要
本申请公开了一种基于多状态时序建模的智能断句活动语音检测方法、装置。其中,该方法包括:接收至少一个通道的音频信号;采用与通道数量对应的目标语音识别模型提取音频信号的声学特征序列;确定声学特征序列所对应的每个语音帧属于不同语音活动状态的概率分布,得到每个通道对应的状态序列,其中,语音活动状态包括以下至少之一:起始静音状态、语音状态、话轮内停顿静音状态、话轮间断句静音状态;依据状态序列,确定音频信号中发生断句的时间。本申请解决了相关技术中基于固定沉默阈值的语音活动检测存在错误断句的技术问题。
技术关键词
语音识别模型
活动语音检测方法
声学特征
序列
长短期记忆网络
非易失性存储介质
多状态
通道
音频
融合特征
编码器
注意力
数据
分支
语音检测装置
信号
时序
语音活动检测
存储程序指令
系统为您推荐了相关专利信息
灰色预测模型
磨损预测方法
灰色模型
序列
火炮身管
动态序列图像
机器人轨迹误差
生成机器人
混合高斯模型
控制力矩
事件识别方法
神经网络模型
时空特征信息
依赖特征
数据
参数优化模型
自动控制方法
深度学习模型
控制策略
分布式传感网络