音频生成方法、装置、设备、存储介质及程序产品

正文

推荐专利

申请号：CN202511093147

申请日期：2025-08-05

公开号：CN120998175A

公开日期：2025-11-21

类型：发明专利

摘要

本申请提供了一种音频生成方法、装置、设备、存储介质及程序产品；方法包括：对输入的描述文本进行多阶段文本识别，得到描述文本对应的至少一个音频事件、每一音频事件对应的时间信息以及与每一音频事件对应的语音文本；对至少一个音频事件、每一音频事件对应的时间信息以及与每一音频事件对应的语音文本进行文本结构化处理，得到结构化提示词；对结构化提示词进行音素级文本编码，得到音素级文本编码向量；基于音素级文本编码向量，生成与描述文本匹配的目标音频。通过本申请，能够实现对描述文本中所描述的事件发生时间区间及语音内容的细粒度可控，提高所生成的目标音频的音频质量。

技术关键词

音频生成方法文本识别编码向量计算机可执行指令多阶段语音编辑计算机程序产品语义电子设备编码模块生成装置处理器标识可读存储介质存储器

系统为您推荐了相关专利信息

一种基于大型语言模型的智能家庭助手系统实现方法

助手系统大语言模型文本识别词嵌入模型身份识别信息

一种人形机器人的交互动作决策优化方法和相关设备

环境状态信息状态向量数据人形机器人编码向量决策优化方法

一种二维CAD图纸的设计元素识别方法、设备及介质

图纸元素识别方法图像图框卷积神经网络模型

一种基于DSP的混合位宽计算单元及量化方法

浮点数神经网络加速器编码向量模块符号

水下机器人的动力学模型构建方法、装置、设备及介质

自主水下航行姿态动力学模型动力学模型构建方法水下机器人计算机可执行指令

音频生成方法、装置、设备、存储介质及程序产品

站点导航

APP 下载