摘要
一种基于互信息理论的自监督语音特征增强语音合成方法,涉及语音合成技术领域。该方法通过引入自监督语音特征,作为文本的声学补充,设计基于互信息最大化和最小化的信息瓶颈模块,从自监督语音特征中提取紧凑且与任务相关的自监督表示,并通过最大化文本表示与自监督表示之间的互信息,增强文本表示的声学信息,从而提高语音合成的自然度和质量。在单说话人和多说话人语音合成场景下均表现出色,且具有良好的跨语言适应性,能够有效提升不同语言环境下的语音合成质量。
技术关键词
文本编码器
理论
上采样
网络
双线性插值算法
解码器
声学特征
语音特征提取
超参数
变量
处理器
瓶颈
声码器
框架
序列
系统为您推荐了相关专利信息
数字孪生
资源分配方法
全局地图
边缘协作方法
深度确定性策略梯度
摄像头监控系统
云端数据中心
量子加密通信技术
Retinex算法
生成对抗网络
通信设备
车载设备
密钥
加密数据
非对称加密算法
成像数据处理方法
肝脏
融合网络架构
三维可视化模型
患者