摘要
本申请提供一种方言语音识别与转换方法及装置,该方法包括获取方言语音输入数据,利用Conformer模型提取局部特征和全局依赖关系,生成音频特征序列。该序列输入共享GRU编码器,生成隐藏状态序列,并行传递至方言文本与普通话文本的CTC解码器。构建多任务学习框架关联这些组件,控制其参数更新。通过该框架,高效提取方言特征,并行生成方言与普通话文本。本申请结合Conformer与CTC‑GRU模型优势,实现了高准确率、强泛化与鲁棒性的方言语音识别与转换。
技术关键词
文本
转换方法
编码器
音频特征
多任务
焦点损失函数
语音
解码器执行
序列
框架
GRU模型
数据
关系
参数
输出模块
鲁棒性
控制模块
系统为您推荐了相关专利信息
融合多模态特征
视觉特征
文本
识别特征
病理切片图像
大语言模型
信息检索方法
文本
无监督学习方法
信息检索装置
语音特征
监督学习模型
文本
说话人模型
语义特征