基于大语言模型的语音生成方法、设备及存储介质

正文

推荐专利

申请号：CN202511279697

申请日期：2025-09-09

公开号：CN120766658B

公开日期：2025-11-18

类型：发明专利

摘要

本申请公开一种基于大语言模型的语音生成方法、设备及存储介质，该方法包括：获取历史通话文本及对应的历史音频数据；将历史通话文本输入至预训练文本模型，获得语义文本特征，并将历史音频数据输入至预训练语音模型，获得语音内容特征；将语义文本特征及语音内容特征输入至待训练的语音合成模型进行融合，并根据融合特征生成预测音频数据，实现了训练输入时的语音内容增强；根据预测音频数据及历史音频数据对待训练的语音合成模型进行训练，获得训练后的语音合成模型；在接收待转换文本时，将待转换文本输入至训练后的语音合成模型，生成待转换文本对应的目标音频数据，有利于提高生成语音的真实性。

技术关键词

转换文本大语言模型语音生成方法训练语音模型音频语音生成设备语义生成程序融合特征大规模文本数据语音特征提取参数特征提取模型生成语音解码器处理器编码器

系统为您推荐了相关专利信息

一种文本到语音生成方法

语义语音生成方法标记序列编解码器

一种基于AI大语言模型的多模态电力知识库构建方法及检索方法

知识库构建方法视频画面数据图像画面数据文本电力

基于人工智能的音乐旋律自动生成系统

自动生成系统模块音乐文本特征向量分层

类脑边缘计算驱动的多模态智能安防方法和系统

智能安防方法智能安防系统多模态数据采集视觉网关

音频处理方法、芯片和电子设备

音频信号谐波电子设备高通滤波器

基于大语言模型的语音生成方法、设备及存储介质

站点导航

APP 下载