一种基于多任务学习的空管对话式语音识别方法及装置

正文

推荐专利

申请号：CN202510456545

申请日期：2025-04-11

公开号：CN120431907A

公开日期：2025-08-05

类型：发明专利

摘要

本发明提供了一种基于多任务学习的空管对话式语音识别方法及装置。通过构建语音特征表示学习模块与语音活动检测模块的联合学习模型，实现语音分割与内容识别的协同优化。首先，设计分段遮蔽对比预训练策略，通过乘积量化码本构建监督信号，使语音特征表示学习模块在无标注数据中学习细粒度声学特征；其次，设计双分支联合训练模式微调模型，其中，主分支通过连接时序分类损失优化语音识别任务，辅助分支利用二元交叉熵损失提升语音段边界检测精度，同时结合动态任务权重调节策略平衡多目标优化方向；最后，创新性地引入动态局部窗口注意力机制，依据实时分割索引聚焦有效语音段的上下文建模。

技术关键词

语音活动检测语音识别方法语音编码器多任务学习模型声学特征特征提取器语音特征时序注意力机制路径特征分支子模块量化器动态联合损失函数索引

系统为您推荐了相关专利信息

目标说话人的语音识别方法、系统及相关设备

声学特征说话人语音识别语音识别方法音频音色特征

一种直播字幕生成方法及相关装置

音频分块字幕生成方法语音活动检测离线语音识别模型文本

一种边缘端脉冲神经网络压缩与部署方法及系统

脉冲神经网络模型剪枝策略动态剪枝肌电特征编码模块

一种多模态模型驱动的数字孪生煤岩识别方法

数字孪生模型煤矿工作面声学特征煤岩识别方法多模态数据采集

一种基于语速感知的空管语音识别模型的语音识别方法

语音识别模型语音识别方法联合损失函数语音识别训练字符

一种基于多任务学习的空管对话式语音识别方法及装置

站点导航

APP 下载