基于多状态时序建模的智能断句活动语音检测方法、装置

AITNT
正文
推荐专利
基于多状态时序建模的智能断句活动语音检测方法、装置
申请号:CN202511061604
申请日期:2025-07-30
公开号:CN120564768B
公开日期:2025-10-28
类型:发明专利
摘要
本申请公开了一种基于多状态时序建模的智能断句活动语音检测方法、装置。其中,该方法包括:接收至少一个通道的音频信号;采用与通道数量对应的目标语音识别模型提取音频信号的声学特征序列;确定声学特征序列所对应的每个语音帧属于不同语音活动状态的概率分布,得到每个通道对应的状态序列,其中,语音活动状态包括以下至少之一:起始静音状态、语音状态、话轮内停顿静音状态、话轮间断句静音状态;依据状态序列,确定音频信号中发生断句的时间。本申请解决了相关技术中基于固定沉默阈值的语音活动检测存在错误断句的技术问题。
技术关键词
语音识别模型 活动语音检测方法 声学特征 序列 长短期记忆网络 非易失性存储介质 多状态 通道 音频 融合特征 编码器 注意力 数据 分支 语音检测装置 信号 时序 语音活动检测 存储程序指令
系统为您推荐了相关专利信息
1
基于自适应优化灰色模型的身管烧蚀磨损预测方法及装置
灰色预测模型 磨损预测方法 灰色模型 序列 火炮身管
2
基于多模态诊疗数据的药量调控数据存储方法及系统
数据存储方法 穿戴设备 多模态 心率 角膜
3
基于人工智能的机器人运动控制系统
动态序列图像 机器人轨迹误差 生成机器人 混合高斯模型 控制力矩
4
基于神经网络模型的应急事件识别方法及计算机设备
事件识别方法 神经网络模型 时空特征信息 依赖特征 数据
5
用于塑料加工生产线的自动控制方法及系统
参数优化模型 自动控制方法 深度学习模型 控制策略 分布式传感网络
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号