一种语音合成方法和装置

正文

推荐专利

一种语音合成方法和装置

申请号：CN202411000066

申请日期：2024-07-24

公开号：CN119152837B

公开日期：2025-09-19

类型：发明专利

摘要

本发明提供一种语音合成方法和装置，涉及语音处理技术领域，方法包括：获取目标图像和说话文稿，并将目标图像和说话文稿输入至预训练的语音合成模型，得到目标合成语音；其中，目标图像包含多个视觉信息，目标合成语音包含多个声学特征，一个视觉信息对应至少一个声学特征；语音合成模型为基于多模态数据集进行训练得到，多模态数据集为对目标数据集进行模态增强得到。通过本发明提供的方法，对现有语音数据集进行模态增强构建多模态数据集，解决数据集稀缺的问题；根据静态图像中的视觉信息与语音音频中的声学特征之间的一一对应关系，基于通过多模态数据集训练得到的语音合成模型，使合成的目标合成语音具有更细粒度的语音风格。

技术关键词

语音解码器声学特征多模态数据图像编码器转换器视觉表征学习非暂态计算机可读存储介质关键帧图像生成模型风格处理器计算机程序产品语音特征音频自然语言存储器

系统为您推荐了相关专利信息

智能冶炼工艺参数优化管理方法及系统

冶炼设备优化管理方法参数非线性关系

账户资源转移风险识别方法、装置、设备和介质

设备特征信息风险评估模型节点风险识别方法指纹

基于Froude准则缩尺下推力相似的风速修正方法

风速修正方法模型风洞试验推力浮式风机风机模型试验

一种核桃仁分级检测方法

分级检测方法微观结构参数构建微观结构特征模板生成标记信息

一种基于大模型的教育行业知识问答自动转单系统

算法模块服务端转单系统信息抽取技术会话历史

一种语音合成方法和装置

站点导航

APP 下载