摘要
本发明提供了一种基于多任务学习的空管对话式语音识别方法及装置。通过构建语音特征表示学习模块与语音活动检测模块的联合学习模型,实现语音分割与内容识别的协同优化。首先,设计分段遮蔽对比预训练策略,通过乘积量化码本构建监督信号,使语音特征表示学习模块在无标注数据中学习细粒度声学特征;其次,设计双分支联合训练模式微调模型,其中,主分支通过连接时序分类损失优化语音识别任务,辅助分支利用二元交叉熵损失提升语音段边界检测精度,同时结合动态任务权重调节策略平衡多目标优化方向;最后,创新性地引入动态局部窗口注意力机制,依据实时分割索引聚焦有效语音段的上下文建模。
技术关键词
语音活动检测
语音识别方法
语音编码器
多任务学习模型
声学特征
特征提取器
语音特征
时序
注意力机制
路径特征
分支
子模块
量化器
动态
联合损失函数
索引
系统为您推荐了相关专利信息
声学特征
说话人语音识别
语音识别方法
音频
音色特征
音频分块
字幕生成方法
语音活动检测
离线语音识别模型
文本
脉冲神经网络模型
剪枝策略
动态剪枝
肌电特征
编码模块
数字孪生模型
煤矿工作面
声学特征
煤岩识别方法
多模态数据采集
语音识别模型
语音识别方法
联合损失函数
语音识别训练
字符