摘要
本发明涉及人工智能技术领域,公开了一种语音生成方法、装置、计算机设备及存储介质,包括:获取语音样本数据,所述语音样本数据包括独白语音样本数据和对话语音样本数据;构建语音生成网络框架,所述语音生成网络框架包括文本转语义模型、声学模型及声码器;基于所述语音样本数据对所述语音生成网络框架进行训练,得到对话语音生成模型;获取待生成对话语音的初始文本,将所述初始文本输入所述对话语音生成模型,生成对应的多轮对话语音。本发明可以同时进行多流语义特征预测,每条语义特征序列对应一个说话人,生成的对话式语音不仅在自然性和连贯性上与真实人类语音类似,而且涉及了多个说话人的多轮对话,提升了用户体验。
技术关键词
语音生成方法
语音生成模型
多轮对话
语义特征
文本
样本
数据
声码器
计算机可执行指令
计算机设备
序列
框架
网络
多通道
处理器
解码器结构
模型训练模块
可读存储介质
系统为您推荐了相关专利信息
认知功能评估
人机交互模块
算法模块
评估系统
语音识别单元
场景特征
语音助手
车载终端
功能执行方法
感兴趣
问答模型训练方法
客服
客户
计算机执行指令
数据
注意力
文本编码器
模型构建方法
编码特征
跨模态