基于大模型生成音频的方法、装置、电子设备及存储介质

AITNT
正文
推荐专利
基于大模型生成音频的方法、装置、电子设备及存储介质
申请号:CN202510308014
申请日期:2025-03-14
公开号:CN120340471A
公开日期:2025-07-18
类型:发明专利
摘要
本公开提供了一种基于大模型生成音频的方法、装置、电子设备及存储介质,涉及音频合成、大模型等人工智能技术领域。具体实现方案为:在大模型生成文本的过程中,获取实时生成的文字;基于所述文字,采用预先训练的音频生成模型,依次获取所述文字的各音频单元的音频特征;所述音频单元的音频特征为离散化的音频特征,所述文字包括多个不同的音频单元的音频特征;基于各所述音频单元的音频特征,采用预先训练的声码器,合成对应的音频。本公开的技术,能够有效地缩短生成大模型输出的文字的音频的时延,并且提升了合成音频的自然度和流畅度,进而能够提高了基于大模型的语音交互的用户体验。
技术关键词
音频单元 音频特征 发音特征 文本编码器 解码器 电子设备 人工智能技术 计算机程序产品 对象 声码器 处理器通信 指令 可读存储介质 存储器 标识
系统为您推荐了相关专利信息
1
一种用于药品配送车辆的路径规划方法、设备及产品
路径规划方法 车辆路径规划 梯度方法 网络 策略
2
定制化音色的语音生成方法、装置、设备及介质
语音生成方法 音频特征 语义 文本 客户端
3
一种露天矿区遥感图像语义分割方法、设备、介质及产品
遥感图像语义分割 露天矿区 遥感图像数据 滑动窗口技术 语义特征
4
一种基于观看行为数据自动生成短视频的方法
生成短视频 语音识别文本 知识点 关键词 矩阵
5
CT图像处理方法、装置、CT成像设备及存储介质
三维重建图像 CT图像处理方法 CT图像处理装置 CT成像设备 数据处理模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号