摘要
本申请属于人工智能领域,涉及一种语音合成方法,包括:获取待合成语音的文本与表征目标情感的参考音频;采用情感编码模型,对参考音频进行特征提取,构建描述目标情感的目标三维情感坐标;对目标三维情感坐标进行坐标转换处理,得到描述目标情感的目标球面情感坐标;采用情感编码器,对目标球面情感坐标进行编码转换,得到描述目标情感的目标情感嵌入向量;采用语音合成模型,对文本与目标情感嵌入向量进行融合,生成具有文本的语义和目标情感的目标合成语音。本申请还提供一种装置、设备及介质。此外,本申请还涉及区块链技术,文本、参考音频以及目标合成语音可存储于区块链中。本申请可以实现在语音合成中对情感表达的更为精细和灵活的控制。
技术关键词
坐标
语音
计算机可读指令
球面
文本
情感类别
音频
编码器
语义
情感特征
数值
风格
可读存储介质
特征提取模块
区块链技术
特征值
强度
序列
处理器
系统为您推荐了相关专利信息
机器人路径规划方法
RRT算法
三次样条插值
节点
控制点
全天候无人机
检测定位系统
坐标系
图像采集模块
图像像素
成像模组
镜头阴影校正方法
坐标
像素点
非线性优化算法
生成提示词
提示生成方法
正确率
排序模型
输出提示词