摘要
本申请属于人工智能领域与金融科技领域,涉及一种基于人工智能的语音合成方法,包括:获取长句文本;获取与长句文本对应的历史上下文语句;获取与长句文本对应的历史时刻的语音信息;基于风格预测器与历史上下文语句对长句文本进行风格预测得到第一风格嵌入;基于风格提取器对语音信息进行风格提取得到第二风格嵌入;基于第一风格嵌入与第二风格嵌入生成目标风格嵌入;基于目标风格嵌入与语音合成模型对长句文本进行语音合成生成目标语音。本申请还提供一种基于人工智能的语音合成装置、计算机设备及存储介质。本申请使用目标风格嵌入与语音合成模型调整长句文本的语音合成过程,实现了生成韵律衔接连贯、听感良好且具有高表达性的目标语音。
技术关键词
风格
语音
位置编码器
文本
计算机可读指令
语句
声码器
序列
计算机设备
训练语言模型
解码器
可读存储介质
模块
处理器
存储器
策略
金融
系统为您推荐了相关专利信息
空间滤波器
语音唤醒方法
麦克风阵列
噪声数据
语音唤醒装置
图像编码器
文本编码器
无人机巡检图像
智能分拣方法
Siamese网络
人工智能驱动
情感分析系统
关键词
文本
情感分析方法