摘要
本发明涉及语音处理技术领域,可应用于金融科技及医疗健康等业务场景中,公开了一种跨语言语音迁移合成方法、装置、设备及介质,包括:通过共享特征提取与语言特异性分离获得目标语言音素序列与声调标记,生成增强训练数据,采用分层自适应微调策略训练声学模型,融合推理用音素序列和声调标记生成表示序列,最终合成目标语言语音信号。本发明通过构建共享与分离并行的跨语言建模结构,有效提升了低资源语言中音素与声调建模的准确性,结合多阶段自适应微调与训练数据增强策略,使目标语言声学模型具备更强泛化能力和迁移效率,最终实现语音自然度与音色保真度的同步提升。
技术关键词
序列
特征提取模块
语音
声学特征
参数
生成器网络
标记
数据
训练特征
适配器
声码器
中间层
预训练模型
文本
训练声学模型
阶段
位置编码信息
策略
系统为您推荐了相关专利信息
文本
数据
结构特征提取
语义特征提取
特征提取模块
调心滚子轴承
粒子群算法
优化设计方法
工况参数
静力学模型
监测反馈方法
多自由度运动控制
激光发射模块
温度监测模块
监测反馈系统
CT成像
数据处理方法
脂肪
掩膜
直方图均衡化图像
软测量方法
搜索优化算法
生成对抗网络
滤波器
状态空间模型