摘要
本发明公开了一种基于合成语音的语音识别方法,包括以下步骤:根据各领域的专有文本生成领域合成语音,将领域合成语音与真实语料混合,生成各领域的混合语音,得到混合语音数据集;构建语音识别模型:在端到端语音识别模型Paraformer解码器的输出层后插入适配器,适配器中嵌入有领域分类器,适配器利用领域分类器判断语音的所属领域并对解码器的输出特征进行动态调整;对适配器的输出特征和解码器的输出特征进行融合,将融合后的特征输入语音识别模型的后续模块,生成语音识别文本;利用标注后的混合语音数据集训练语音识别模型,将待识别的语音输入训练后的语音识别模型,得到待识别语音的语音识别文本。
技术关键词
语音识别方法
输出特征
适配器
解码器
判别特征
构建语音识别模型
联合损失函数
语音识别文本
分类器
生成语音
表达式
门控阈值
全局平均池化
参数
数据
非线性
动态
系统为您推荐了相关专利信息
染色成像方法
组织切片
生成对抗网络
GAN模型
明场显微镜
图像综合特征
可见光图像
图像多模态
图像梯度信息
模态特征
钢材缺陷检测
卷积模块
模型训练方法
输出特征
融合特征