摘要
本申请提供了一种音频生成方法、装置、设备、存储介质及程序产品;方法包括:对输入的描述文本进行多阶段文本识别,得到描述文本对应的至少一个音频事件、每一音频事件对应的时间信息以及与每一音频事件对应的语音文本;对至少一个音频事件、每一音频事件对应的时间信息以及与每一音频事件对应的语音文本进行文本结构化处理,得到结构化提示词;对结构化提示词进行音素级文本编码,得到音素级文本编码向量;基于音素级文本编码向量,生成与描述文本匹配的目标音频。通过本申请,能够实现对描述文本中所描述的事件发生时间区间及语音内容的细粒度可控,提高所生成的目标音频的音频质量。
技术关键词
音频生成方法
文本识别
编码向量
计算机可执行指令
多阶段
语音
编辑
计算机程序产品
语义
电子设备
编码模块
生成装置
处理器
标识
可读存储介质
存储器
系统为您推荐了相关专利信息
助手系统
大语言模型
文本识别
词嵌入模型
身份识别信息
环境状态信息
状态向量数据
人形机器人
编码向量
决策优化方法
自主水下航行
姿态动力学模型
动力学模型构建方法
水下机器人
计算机可执行指令