摘要
本发明提供一种语音识别方法、装置、电子设备及存储介质,所述方法包括:获取语音数据集,并提取语音数据集的音频特征矩阵;利用与语音数据对应领域相对应的转录文本进行特征提取,得到对应的文本特征矩阵;针对同一领域的音频特征矩阵和文本特征矩阵,将音频特征矩阵和所述文本特征矩阵中的特征进行跨模态特征对齐,得到对齐特征;基于对齐特征进行处理,确定综合损失函数;利用综合损失函数优化初始语音识别模型,得到目标语音识别模型,以便基于目标语音识别模型对用户输入的待识别语音进行处理,得到与待识别语音对应的转录文本。从而提升语音识别模型在不同领域场景下的识别性能。
技术关键词
语音识别模型
音频特征
文本
损失函数优化
语音识别方法
矩阵
跨模态
数据
序列
电子设备
语音识别装置
方向盘控制
对齐模块
存储器
处理器
程序
蒸馏