基于大模型生成音频的方法、装置、电子设备及存储介质

正文

推荐专利

申请号：CN202510308014

申请日期：2025-03-14

公开号：CN120340471A

公开日期：2025-07-18

类型：发明专利

摘要

本公开提供了一种基于大模型生成音频的方法、装置、电子设备及存储介质，涉及音频合成、大模型等人工智能技术领域。具体实现方案为：在大模型生成文本的过程中，获取实时生成的文字；基于所述文字，采用预先训练的音频生成模型，依次获取所述文字的各音频单元的音频特征；所述音频单元的音频特征为离散化的音频特征，所述文字包括多个不同的音频单元的音频特征；基于各所述音频单元的音频特征，采用预先训练的声码器，合成对应的音频。本公开的技术，能够有效地缩短生成大模型输出的文字的音频的时延，并且提升了合成音频的自然度和流畅度，进而能够提高了基于大模型的语音交互的用户体验。

技术关键词

音频单元音频特征发音特征文本编码器解码器电子设备人工智能技术计算机程序产品对象声码器处理器通信指令可读存储介质存储器标识

系统为您推荐了相关专利信息

一种用于药品配送车辆的路径规划方法、设备及产品

路径规划方法车辆路径规划梯度方法网络策略

定制化音色的语音生成方法、装置、设备及介质

语音生成方法音频特征语义文本客户端

一种露天矿区遥感图像语义分割方法、设备、介质及产品

遥感图像语义分割露天矿区遥感图像数据滑动窗口技术语义特征

一种基于观看行为数据自动生成短视频的方法

生成短视频语音识别文本知识点关键词矩阵

CT图像处理方法、装置、CT成像设备及存储介质

三维重建图像 CT图像处理方法 CT图像处理装置 CT成像设备数据处理模块

基于大模型生成音频的方法、装置、电子设备及存储介质

站点导航

APP 下载