摘要
本申请公开了一种语音识别及模型训练方法、装置、设备及计算机程序产品,涉及语音识别技术领域,本申请对语音识别模型和文本重建模型联合训练,二者共享同一解码器,文本重建模型还包括基于大语言模型构建的文本编码器,能够对识别文本标签提取文本语义表征,计算音频编码器对音频样本提取的音频语义表征与文本语义表征间的特征对齐损失值,以及计算解码器输出的文本与识别文本标签间的文本识别损失值,大语言模型能够提取丰富的语义信息,通过特征对齐损失值可以将大语言模型丰富的语义信息迁移到音频编码器中,提升语音识别模型在特定领域下的识别效果。推理阶段,将待识别语音信号的声学特征输入语音识别模型,得到模型输出的语音识别结果。
技术关键词
语音识别模型
音频编码器
文本编码器
语义
大语言模型
解码器
文本识别
语音识别方法
声学特征
更新模型参数
识别语音信号
采样模块
标签
对齐模块
计算机程序产品
模型训练方法
系统为您推荐了相关专利信息
故障分析模型
特征提取模型
历史故障数据
故障分析方法
文本
图像语义分割网络
多尺度特征融合
图像语义分割方法
融合特征
解码器
要素抽取方法
文本
计算机可读指令
扩展特征向量
关键词