文本引导的语音合成方法、装置、计算机设备及存储介质

AITNT
正文
推荐专利
文本引导的语音合成方法、装置、计算机设备及存储介质
申请号:CN202510192011
申请日期:2025-02-20
公开号:CN120015011B
公开日期:2025-12-02
类型:发明专利
摘要
本申请属于人工智能技术领域,涉及一种文本引导的语音合成方法,包括对语音数据集进行风格标签标注和场景噪声注入,得到参考语音集;将参考语音集和文本数据集输入声学模型;通过风格编码器对风格标签进行编码,得到风格编码特征;通过参考编码器对参考语音进行编码,得到参考语音编码特征;通过文本编码器对文本进行编码,得到文本编码特征;将全部编码特征输入声学结构,获得语音声学特征;将语音声学特征输入声码器合成波形,得到预测合成语音进行训练,得到语音合成模型。本申请还提供一种文本引导的语音合成装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,待转换文本可存储于区块链中。本申请提高语音合成的效率与质量。
技术关键词
编码特征 语音声学特征 风格 语音编码 文本编码器 声学结构 标签 计算机可读指令 数据 转换文本 流解码器 信噪比 声码器 计算机设备 情感识别模型
系统为您推荐了相关专利信息
1
基于提示学习的弱监督视频异常检测方法及系统
视频异常检测方法 词汇数据库 非暂态计算机可读存储介质 动态位置编码 分支
2
基于多模态特征融合及边界增强的病理图像语义分割方法
图像语义分割方法 多模态特征融合 文本编码器 图像编码器 报告
3
一种基于解耦提示表示的目标动力学参数自主辨识方法
辨识方法 柔性结构 图像 参数 像素
4
基于人工智能的海报图片生成方法、装置、设备及介质
文字内容信息 海报 图片生成方法 噪声特征 生成文字
5
一种基于文生图大模型的视错觉隐藏图像创作方法
生成轨迹 轨迹特征 创作方法 文本 视错觉
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号