摘要
本申请实施例提供了一种语音合成方法、装置、计算机设备、计算机可读存储介质、计算机程序产品,涉及人工智能技术领域。该语音合成方法包括:确定目标文本和目标词元数量;将所述目标文本和所述目标词元数量输入到预先训练好的自回归语音合成大模型,以通过所述自回归语音合成大模型生成目标语音;所述自回归语音合成大模型通过调整参考音频语速得到的样本训练得到;其中,所述目标语音与所述目标文本对应;所述目标语音包括与所述目标词元数量相匹配的语音词元,以控制所述目标语音的输出时长。本申请实施例的技术方案通过直接指定自回归语音合成大模型需要生成的词元数量,可以生成长度确定的语音,从而精准控制合成语音的时长。
技术关键词
语音
音频
文本
声纹特征
矩阵
序列
计算机程序产品
可读存储介质
计算机设备
对象
人工智能技术
处理器通信
分词
指令
样本
数据
存储器
模块
系统为您推荐了相关专利信息
可调度潜力
预测评估方法
5G基站
负荷预测模型
储能
机电暂态
模型构建方法
水轮机模型
动态仿真系统
发电机模型
网格模型
坐标系
识别方法
视觉
电力设备巡检装置
知识图谱模型
视频彩铃
彩铃业务数据
实体关系模型
推荐方法