摘要
本发明涉及人工智能技术领域和金融科技领域,公开了一种语音生成方法,通过获取待转换文本和参考语音样本,利用预训练的自监督学习编码器提取参考语音的语音特征,通过文本到语音特征模型将待转换文本转换为语音特征,分析这两组特征的相似度,从中确定目标说话人的语音特征,将两组特征融合,生成最终的融合语音特征,并利用预训练的声码器解码生成语音信号。本发明通过在小样本或零样本条件下进行特征匹配和融合,能够在无需大量语音数据的情况下,生成与目标声音相似的语音,有效提升了语音合成的效率和质量,满足多场景应用需求,尤其适用于未见过的说话者语音生成。
技术关键词
语音特征
语音生成方法
转换文本
生成程序
样本
编码器
生成语音信号
音频
声码器
生成装置
解码
计算机设备
序列
分析模块
句法结构
特征提取模块
人工智能技术
系统为您推荐了相关专利信息
汽车零部件
缺陷识别方法
特征提取网络
分类网络
工业缺陷检测
贝叶斯神经网络
路面性能预测
神经网络模型
参数
指标
海上风电机组
故障告警信息
风电机组变流器
故障检测方法
历史故障信息
图像类别
图像识别分类方法
样本
图像识别分类系统
数据
分布式光伏电站
故障判定方法
标杆
分析电力系统
数据对齐模块