多语言场景下基于AI大模型的语音合成方法、装置以及设备

正文

推荐专利

申请号：CN202411823840

申请日期：2024-12-12

公开号：CN119314466B

公开日期：2025-03-07

类型：发明专利

摘要

本发明提供了一种多语言场景下基于AI大模型的语音合成方法、装置以及设备，包括：对输入的多语言待合成文本，进行文本特征提取，得到待合成文本特征；基于融合特征模型对待合成文本特征进行语音合成参数生成；其中，预先训练完成的所述融合特征模型中具有语音合成参数和文本的映射关系，所述语音合成参数包括基频参数、时长参数、频谱参数；将所述语音合成参数输入到预先训练完成的声码器中，基于所述声码器将所述语音合成参数中的多个参数处理为中间特征向量，将所述中间特征向量转换为离散的语音样本点，将所述离散的语音样本点转换为连续的语音波形，得到多语言待合成文本对应的合成语音。在本发明中，提升生成语音波形的连贯性和自然度。

技术关键词

文本多语言生成通讯密钥字符语音特征声码器参数融合特征语法结构阵列样本长短期记忆单元时间序列关系主成分分析算法曲线场景波形语义

系统为您推荐了相关专利信息

一种隐式情感分析方法及装置

情感分析装置情感分析方法文本融合特征融合策略

样本集构建方法、问答模型的训练方法、问答处理方法、请求处理方法、任务平台

问答模型样本集构建方法图像校验信息场景

基于先验知识迁移的推荐精排模型构建方法

模型构建方法特征构造方法特征工程语音特征提取特征选择方法

一种利用图像识别技术进行财务信息自动化处理的系统

财务信息自动化图像识别技术像素点二值化图像降噪单元

问答方法、装置、电子设备、存储介质及程序产品

查询特征时序特征语义特征问答方法意图识别模型

多语言场景下基于AI大模型的语音合成方法、装置以及设备

站点导航

APP 下载