多语言场景下基于AI大模型的语音合成方法、装置以及设备

AITNT
正文
推荐专利
多语言场景下基于AI大模型的语音合成方法、装置以及设备
申请号:CN202411823840
申请日期:2024-12-12
公开号:CN119314466B
公开日期:2025-03-07
类型:发明专利
摘要
本发明提供了一种多语言场景下基于AI大模型的语音合成方法、装置以及设备,包括:对输入的多语言待合成文本,进行文本特征提取,得到待合成文本特征;基于融合特征模型对待合成文本特征进行语音合成参数生成;其中,预先训练完成的所述融合特征模型中具有语音合成参数和文本的映射关系,所述语音合成参数包括基频参数、时长参数、频谱参数;将所述语音合成参数输入到预先训练完成的声码器中,基于所述声码器将所述语音合成参数中的多个参数处理为中间特征向量,将所述中间特征向量转换为离散的语音样本点,将所述离散的语音样本点转换为连续的语音波形,得到多语言待合成文本对应的合成语音。在本发明中,提升生成语音波形的连贯性和自然度。
技术关键词
文本 多语言 生成通讯密钥 字符 语音特征 声码器 参数 融合特征 语法结构 阵列 样本 长短期记忆单元 时间序列关系 主成分分析算法 曲线 场景 波形 语义
系统为您推荐了相关专利信息
1
一种隐式情感分析方法及装置
情感分析装置 情感分析方法 文本 融合特征 融合策略
2
样本集构建方法、问答模型的训练方法、问答处理方法、请求处理方法、任务平台
问答模型 样本集构建方法 图像 校验信息 场景
3
基于先验知识迁移的推荐精排模型构建方法
模型构建方法 特征构造方法 特征工程 语音特征提取 特征选择方法
4
一种利用图像识别技术进行财务信息自动化处理的系统
财务信息自动化 图像识别技术 像素点 二值化图像 降噪单元
5
问答方法、装置、电子设备、存储介质及程序产品
查询特征 时序特征 语义特征 问答方法 意图识别模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号