基于大语言模型的语音生成方法、设备及存储介质

AITNT
正文
推荐专利
基于大语言模型的语音生成方法、设备及存储介质
申请号:CN202511279697
申请日期:2025-09-09
公开号:CN120766658B
公开日期:2025-11-18
类型:发明专利
摘要
本申请公开一种基于大语言模型的语音生成方法、设备及存储介质,该方法包括:获取历史通话文本及对应的历史音频数据;将历史通话文本输入至预训练文本模型,获得语义文本特征,并将历史音频数据输入至预训练语音模型,获得语音内容特征;将语义文本特征及语音内容特征输入至待训练的语音合成模型进行融合,并根据融合特征生成预测音频数据,实现了训练输入时的语音内容增强;根据预测音频数据及历史音频数据对待训练的语音合成模型进行训练,获得训练后的语音合成模型;在接收待转换文本时,将待转换文本输入至训练后的语音合成模型,生成待转换文本对应的目标音频数据,有利于提高生成语音的真实性。
技术关键词
转换文本 大语言模型 语音生成方法 训练语音模型 音频 语音生成设备 语义 生成程序 融合特征 大规模文本数据 语音特征提取 参数 特征提取模型 生成语音 解码器 处理器 编码器
系统为您推荐了相关专利信息
1
一种文本到语音生成方法
语义 语音生成方法 标记 序列 编解码器
2
一种基于AI大语言模型的多模态电力知识库构建方法及检索方法
知识库构建方法 视频画面数据 图像画面数据 文本 电力
3
基于人工智能的音乐旋律自动生成系统
自动生成系统 模块 音乐 文本特征向量 分层
4
类脑边缘计算驱动的多模态智能安防方法和系统
智能安防方法 智能安防系统 多模态数据采集 视觉 网关
5
音频处理方法、芯片和电子设备
音频 信号 谐波 电子设备 高通滤波器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号