摘要
本发明涉及语音语义技术领域,可应用于金融科技、医疗健康等业务系统平台中,揭露了一种基于语音令牌融合的语音合成方法、装置、设备及介质,所述方法包括:获取初始文本,将所述初始文本转换为初始潜在表示,并对所述初始潜在表示进行文本编码,得到目标文本特征;根据所述目标文本特征生成所述初始文本对应的语义令牌,并对所述语义令牌与所述目标文本特征进行时序对齐,得到目标语义令牌;获取参考用户的用户语音,提取所述用户语音的音色特征,根据所述音色特征和所述目标语义令牌逐帧生成梅尔频谱图;根据所述梅尔频谱图进行语音合成,得到目标语音。本发明可以提高语音合成效率和质量。
技术关键词
令牌
音色特征
文本
时序
频谱特征
参数
语音语义技术
序列
波形
时域特征
融合特征
层级
处理器
置信度阈值
编码
错位
医疗健康
变换算法
系统为您推荐了相关专利信息
语言模型训练方法
大语言模型
计算机程序指令
数据
简历筛选方法