语音合成方法和装置

AITNT
正文
推荐专利
语音合成方法和装置
申请号:CN202510840567
申请日期:2025-06-20
公开号:CN120564695A
公开日期:2025-08-29
类型:发明专利
摘要
本申请实施例提供了一种语音合成方法、装置、计算机设备、计算机可读存储介质、计算机程序产品,涉及人工智能技术领域。该语音合成方法包括:确定目标文本和目标词元数量;将所述目标文本和所述目标词元数量输入到预先训练好的自回归语音合成大模型,以通过所述自回归语音合成大模型生成目标语音;所述自回归语音合成大模型通过调整参考音频语速得到的样本训练得到;其中,所述目标语音与所述目标文本对应;所述目标语音包括与所述目标词元数量相匹配的语音词元,以控制所述目标语音的输出时长。本申请实施例的技术方案通过直接指定自回归语音合成大模型需要生成的词元数量,可以生成长度确定的语音,从而精准控制合成语音的时长。
技术关键词
语音 音频 文本 声纹特征 矩阵 序列 计算机程序产品 可读存储介质 计算机设备 对象 人工智能技术 处理器通信 分词 指令 样本 数据 存储器 模块
系统为您推荐了相关专利信息
1
用于分散式储能的5G基站可调度潜力预测评估方法
可调度潜力 预测评估方法 5G基站 负荷预测模型 储能
2
一种基于机电暂态理论的电网与机组集成模型构建方法
机电暂态 模型构建方法 水轮机模型 动态仿真系统 发电机模型
3
一种电力设备巡检盲区的识别方法及装置
网格模型 坐标系 识别方法 视觉 电力设备巡检装置
4
基于LLM和知识图谱的视频彩铃推荐方法及系统
知识图谱模型 视频彩铃 彩铃业务数据 实体关系模型 推荐方法
5
煤炭行业词库分类方法
文本分类模型 关键词 精度 序列 场景词库
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号