语音生成方法、装置、设备及介质

正文

推荐专利

语音生成方法、装置、设备及介质

申请号：CN202510643898

申请日期：2025-05-19

公开号：CN120279883A

公开日期：2025-07-08

类型：发明专利

摘要

本发明涉及语音合成技术领域，可应用于金融科技、医疗健康等业务场景中，公开了一种语音生成方法、装置、设备及介质，包括：接收提示语音并转换为初始文本，基于字符与拼音的联合编码方式生成融合特征，通过文本编码器提取文本特征，结合基于码本生成方式提取的语音编码输入文本语音语言模型生成中间编码，同时提取提示语音中的说话人特征向量，并由生成对抗解码器对中间编码和说话人特征向量进行解码处理，输出目标语音。本发明通过融合字符语义与拼音发音信息建立细粒度的文本表示，结合码本驱动的声学编码与说话人个性特征，通过统一的语音语言建模与对抗生成机制完成语音克隆，提升了生成语音的自然度、相似度和发音准确性。

技术关键词

语音生成方法拼音生成方式文本编码器字符融合特征语音编码解码器生成器网络生成程序语音识别模块生成语音文本特征向量重构误差波形声学特征

系统为您推荐了相关专利信息

一种基于语义嵌入和偏好建模的可控图像生成方法

图像生成模型图像生成方法文本编码器指令大语言模型

典型设计的数字化图元库构建方法及辅助设计方法

图元索引辅助设计方法标记识别模块

基于动态权重预测的双三次插值图像超分重建方法

超分辨率模型动态轻量化卷积神经网络双三次插值对比度

基于n-gram模型的中文文档的OCR后处理方法、装置及可读介质

识别置信度后处理方法分词字符顶点

人员拜访行为的分析方法、装置、计算机设备和存储介质

客户分析方法有效性计算机设备图像识别模块

语音生成方法、装置、设备及介质

站点导航

APP 下载