摘要
本申请公开一种基于大语言模型的语音生成方法、设备及存储介质,该方法包括:获取历史通话文本及对应的历史音频数据;将历史通话文本输入至预训练文本模型,获得语义文本特征,并将历史音频数据输入至预训练语音模型,获得语音内容特征;将语义文本特征及语音内容特征输入至待训练的语音合成模型进行融合,并根据融合特征生成预测音频数据,实现了训练输入时的语音内容增强;根据预测音频数据及历史音频数据对待训练的语音合成模型进行训练,获得训练后的语音合成模型;在接收待转换文本时,将待转换文本输入至训练后的语音合成模型,生成待转换文本对应的目标音频数据,有利于提高生成语音的真实性。
技术关键词
转换文本
大语言模型
语音生成方法
训练语音模型
音频
语音生成设备
语义
生成程序
融合特征
大规模文本数据
语音特征提取
参数
特征提取模型
生成语音
解码器
处理器
编码器
系统为您推荐了相关专利信息
知识库构建方法
视频画面数据
图像画面数据
文本
电力
智能安防方法
智能安防系统
多模态数据采集
视觉
网关