摘要
本发明涉及语音合成及医疗健康领域,公开了一种面向类人表达的方言语音合成方法、装置、设备及介质,包括:对预先获取的训练文本进行文本特征提取以及文本特征标记,得到标记文本特征;对预先获取的训练语音进行语音特征提取以及语音特征标记,得到标记语音特征;利用所述标记文本特征对所述标记语音特征进行标记对齐,得到对齐训练数据集;利用所述对齐训练数据集对预设的语音合成模型进行模型训练,得到初级语音模型;利用所述对齐训练数据集对所述初级语音模型进行交叉注意力扩散,得到方言语音模型;获取医疗诊断回复文本,利用所述方言语音模型生成所述医疗诊断回复文本对应的回复音频。本发明能够提升合成方言语音的效率。
技术关键词
文本
标记
语音特征提取
语音特征数据
注意力
词特征
无监督
频谱特征
序列
音频特征
模型更新
模型训练模块
可读存储介质
医疗健康
对齐模块
处理器
系统为您推荐了相关专利信息
虫媒传染病
知识图谱构建方法
大语言模型
实体
模板