一种解耦式语音自监督预训练方法

AITNT
正文
推荐专利
一种解耦式语音自监督预训练方法
申请号:CN202411011648
申请日期:2024-07-26
公开号:CN118841029B
公开日期:2025-11-28
类型:发明专利
摘要
本发明公开了一种解耦式语音自监督预训练方法,包括预训练和微调两个阶段。构建以卷积、Transformer、音高变化处理器和说话人信息处理器为核心的自监督预训练模型。输入语音后,卷积模块将语音编码为帧级特征;音高变化处理器提取音高变化表征,并从主分支剔除,将其替换为掩蔽向量后输入Transformer编码器。在编码器中间层加入说话人处理器模块来提取说话人表征,并从主分支表征中剔除。继续编码处理,最终映射到目标语音表征维度。第一轮预训练后,提取中间层表征,训练第二个K‑Means模型生成新的伪标签目标,进行第二轮预训练。利用加权求和机制获得任务特定表征,适用于各种下游任务。
技术关键词
预训练方法 卷积模块 中间层 信息处理器 门控循环单元网络 梅尔频率倒谱系数 分支 标签 预训练模型 积分方法 处理器模块 语音编码 编码器 教师 数据 思路 机制 核心
系统为您推荐了相关专利信息
1
高能量密度材料结构的能量预测方法
高能量密度材料 参数 多元线性回归模型 双向长短期记忆 粒子群优化算法
2
利用CNN与YOLOv4进行间接噪声估计的极化码图像信号解码方法
图像信号解码方法 残差模块 卷积模块 空间金字塔池化 噪声抑制
3
一种异常交易检测方法、装置、设备、介质及程序产品
可变形卷积神经网络 交易检测方法 门控循环单元网络 膨胀卷积神经网络 数据
4
一种基于深度学习的AI视觉检测方法
视觉检测方法 深度学习模型 产品照明 图像 缺陷类别
5
基于门控卷积和融合门控注意力机制的图像修复方法与系统
图像修复方法 图像修复模型 注意力机制 图像超分辨率 超分辨率重建图像
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号