一种解耦式语音自监督预训练方法

正文

推荐专利

一种解耦式语音自监督预训练方法

申请号：CN202411011648

申请日期：2024-07-26

公开号：CN118841029B

公开日期：2025-11-28

类型：发明专利

摘要

本发明公开了一种解耦式语音自监督预训练方法，包括预训练和微调两个阶段。构建以卷积、Transformer、音高变化处理器和说话人信息处理器为核心的自监督预训练模型。输入语音后，卷积模块将语音编码为帧级特征；音高变化处理器提取音高变化表征，并从主分支剔除，将其替换为掩蔽向量后输入Transformer编码器。在编码器中间层加入说话人处理器模块来提取说话人表征，并从主分支表征中剔除。继续编码处理，最终映射到目标语音表征维度。第一轮预训练后，提取中间层表征，训练第二个K‑Means模型生成新的伪标签目标，进行第二轮预训练。利用加权求和机制获得任务特定表征，适用于各种下游任务。

技术关键词

预训练方法卷积模块中间层信息处理器门控循环单元网络梅尔频率倒谱系数分支标签预训练模型积分方法处理器模块语音编码编码器教师数据思路机制核心

系统为您推荐了相关专利信息

高能量密度材料结构的能量预测方法

高能量密度材料参数多元线性回归模型双向长短期记忆粒子群优化算法

利用CNN与YOLOv4进行间接噪声估计的极化码图像信号解码方法

图像信号解码方法残差模块卷积模块空间金字塔池化噪声抑制

一种异常交易检测方法、装置、设备、介质及程序产品

可变形卷积神经网络交易检测方法门控循环单元网络膨胀卷积神经网络数据

一种基于深度学习的AI视觉检测方法

视觉检测方法深度学习模型产品照明图像缺陷类别

基于门控卷积和融合门控注意力机制的图像修复方法与系统

图像修复方法图像修复模型注意力机制图像超分辨率超分辨率重建图像

一种解耦式语音自监督预训练方法

站点导航

APP 下载