摘要
本公开关于语音表征模型预训练方法、装置、电子设备及存储介质,该方法包括:随机初始化映射矩阵和码本集合,基于映射矩阵对样本语音的音频帧序列中各音频帧分别进行向量映射处理得到各音频帧的映射向量;从码本集合中搜索与各映射向量相匹配的目标码本向量并将其目标索引作为相应音频帧的参考离散化标签;将经遮蔽的音频帧序列输入待训练语音表征模型进行语音表征处理得到语音表征结果;对语音表征结果中对应各被遮蔽位置的表征结果分别进行离散化标签预测;基于各被遮蔽位置对应的预测离散化标签与相应参考离散化标签之间的差异,调整待训练语音表征模型的模型参数以得到预训练的语音表征模型。本公开提高了语音表征模型的预训练速度和稳定性。
技术关键词
序列
信息熵
语音
音频
预训练方法
标签
索引
矩阵
电子设备
模型预训练
处理器
可读存储介质
规模
计算机程序产品
样本
频域特征
参数
指令
关系
系统为您推荐了相关专利信息
电网历史状态数据
电网风险评估方法
电网运行风险评估
预测特征
指数平滑模型
设备故障预警系统
机械运行参数
设备故障预警方法
设备运行状态
通信网络