摘要
本发明公开了一种解耦式语音自监督预训练方法,包括预训练和微调两个阶段。构建以卷积、Transformer、音高变化处理器和说话人信息处理器为核心的自监督预训练模型。输入语音后,卷积模块将语音编码为帧级特征;音高变化处理器提取音高变化表征,并从主分支剔除,将其替换为掩蔽向量后输入Transformer编码器。在编码器中间层加入说话人处理器模块来提取说话人表征,并从主分支表征中剔除。继续编码处理,最终映射到目标语音表征维度。第一轮预训练后,提取中间层表征,训练第二个K‑Means模型生成新的伪标签目标,进行第二轮预训练。利用加权求和机制获得任务特定表征,适用于各种下游任务。
技术关键词
预训练方法
卷积模块
中间层
信息处理器
门控循环单元网络
梅尔频率倒谱系数
分支
标签
预训练模型
积分方法
处理器模块
语音编码
编码器
教师
数据
思路
机制
核心
系统为您推荐了相关专利信息
高能量密度材料
参数
多元线性回归模型
双向长短期记忆
粒子群优化算法
图像信号解码方法
残差模块
卷积模块
空间金字塔池化
噪声抑制
可变形卷积神经网络
交易检测方法
门控循环单元网络
膨胀卷积神经网络
数据
视觉检测方法
深度学习模型
产品照明
图像
缺陷类别
图像修复方法
图像修复模型
注意力机制
图像超分辨率
超分辨率重建图像