基于多状态时序建模的智能断句活动语音检测方法、装置

正文

推荐专利

申请号：CN202511061604

申请日期：2025-07-30

公开号：CN120564768B

公开日期：2025-10-28

类型：发明专利

摘要

本申请公开了一种基于多状态时序建模的智能断句活动语音检测方法、装置。其中，该方法包括：接收至少一个通道的音频信号；采用与通道数量对应的目标语音识别模型提取音频信号的声学特征序列；确定声学特征序列所对应的每个语音帧属于不同语音活动状态的概率分布，得到每个通道对应的状态序列，其中，语音活动状态包括以下至少之一：起始静音状态、语音状态、话轮内停顿静音状态、话轮间断句静音状态；依据状态序列，确定音频信号中发生断句的时间。本申请解决了相关技术中基于固定沉默阈值的语音活动检测存在错误断句的技术问题。

技术关键词

语音识别模型活动语音检测方法声学特征序列长短期记忆网络非易失性存储介质多状态通道音频融合特征编码器注意力数据分支语音检测装置信号时序语音活动检测存储程序指令

系统为您推荐了相关专利信息

基于自适应优化灰色模型的身管烧蚀磨损预测方法及装置

灰色预测模型磨损预测方法灰色模型序列火炮身管

基于多模态诊疗数据的药量调控数据存储方法及系统

数据存储方法穿戴设备多模态心率角膜

基于人工智能的机器人运动控制系统

动态序列图像机器人轨迹误差生成机器人混合高斯模型控制力矩

基于神经网络模型的应急事件识别方法及计算机设备

事件识别方法神经网络模型时空特征信息依赖特征数据

用于塑料加工生产线的自动控制方法及系统

参数优化模型自动控制方法深度学习模型控制策略分布式传感网络

基于多状态时序建模的智能断句活动语音检测方法、装置

站点导航

APP 下载