摘要
本发明涉及人工智能技术领域,可应用于医疗健康、金融科技等业务场景,公开了一种语音生成方法,包括:构建多语言语音合成模型,获取纯文本数据及配对语音文本数据,构建扩展词汇表;更新语言感知嵌入层和模型参数,将输入文本转换为标记序列;编码器提取上下文语义特征,提取发音规则特征,解码器融合特征生成声学特征序列,并转换为目标语音数据。本发明通过多语言语音合成模型结合语言感知嵌入层,提高低资源语言的语音生成能力;扩展词汇表提升文本转换准确性,无监督训练增强目标语言学习能力,监督训练优化低数据环境适应性,特征融合提升语音自然度和流畅性。
技术关键词
语音生成方法
声学特征
语义特征
文本
解码器
字符
编码器
生成程序
序列
符号
多语言
发音
标记
融合特征
数据
特征提取模块
交叉注意力机制
模型更新
低资源语言
系统为您推荐了相关专利信息
疏散路径规划
声音分类器
交通
模板匹配算法
路径规划系统
风电设备叶片
故障检测方法
注意力机制
辅助编码器
故障检测模型
情感交互方法
记忆
异步控制
意图分类模型
实体识别模型
艺术家
创作方法
深度学习算法
智能体系统
原创性