一种基于多任务学习的空管对话式语音识别方法及装置

AITNT
正文
推荐专利
一种基于多任务学习的空管对话式语音识别方法及装置
申请号:CN202510456545
申请日期:2025-04-11
公开号:CN120431907A
公开日期:2025-08-05
类型:发明专利
摘要
本发明提供了一种基于多任务学习的空管对话式语音识别方法及装置。通过构建语音特征表示学习模块与语音活动检测模块的联合学习模型,实现语音分割与内容识别的协同优化。首先,设计分段遮蔽对比预训练策略,通过乘积量化码本构建监督信号,使语音特征表示学习模块在无标注数据中学习细粒度声学特征;其次,设计双分支联合训练模式微调模型,其中,主分支通过连接时序分类损失优化语音识别任务,辅助分支利用二元交叉熵损失提升语音段边界检测精度,同时结合动态任务权重调节策略平衡多目标优化方向;最后,创新性地引入动态局部窗口注意力机制,依据实时分割索引聚焦有效语音段的上下文建模。
技术关键词
语音活动检测 语音识别方法 语音编码器 多任务学习模型 声学特征 特征提取器 语音特征 时序 注意力机制 路径特征 分支 子模块 量化器 动态 联合损失函数 索引
系统为您推荐了相关专利信息
1
目标说话人的语音识别方法、系统及相关设备
声学特征 说话人语音识别 语音识别方法 音频 音色特征
2
一种直播字幕生成方法及相关装置
音频分块 字幕生成方法 语音活动检测 离线语音识别模型 文本
3
一种边缘端脉冲神经网络压缩与部署方法及系统
脉冲神经网络模型 剪枝策略 动态剪枝 肌电特征 编码模块
4
一种多模态模型驱动的数字孪生煤岩识别方法
数字孪生模型 煤矿工作面 声学特征 煤岩识别方法 多模态数据采集
5
一种基于语速感知的空管语音识别模型的语音识别方法
语音识别模型 语音识别方法 联合损失函数 语音识别训练 字符
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号