音频生成方法、装置、设备、存储介质及程序产品

AITNT
正文
推荐专利
音频生成方法、装置、设备、存储介质及程序产品
申请号:CN202511093147
申请日期:2025-08-05
公开号:CN120998175A
公开日期:2025-11-21
类型:发明专利
摘要
本申请提供了一种音频生成方法、装置、设备、存储介质及程序产品;方法包括:对输入的描述文本进行多阶段文本识别,得到描述文本对应的至少一个音频事件、每一音频事件对应的时间信息以及与每一音频事件对应的语音文本;对至少一个音频事件、每一音频事件对应的时间信息以及与每一音频事件对应的语音文本进行文本结构化处理,得到结构化提示词;对结构化提示词进行音素级文本编码,得到音素级文本编码向量;基于音素级文本编码向量,生成与描述文本匹配的目标音频。通过本申请,能够实现对描述文本中所描述的事件发生时间区间及语音内容的细粒度可控,提高所生成的目标音频的音频质量。
技术关键词
音频生成方法 文本识别 编码向量 计算机可执行指令 多阶段 语音 编辑 计算机程序产品 语义 电子设备 编码模块 生成装置 处理器 标识 可读存储介质 存储器
系统为您推荐了相关专利信息
1
一种基于大型语言模型的智能家庭助手系统实现方法
助手系统 大语言模型 文本识别 词嵌入模型 身份识别信息
2
一种人形机器人的交互动作决策优化方法和相关设备
环境状态信息 状态向量数据 人形机器人 编码向量 决策优化方法
3
一种二维CAD图纸的设计元素识别方法、设备及介质
图纸 元素识别方法 图像 图框 卷积神经网络模型
4
一种基于DSP的混合位宽计算单元及量化方法
浮点数 神经网络加速器 编码向量 模块 符号
5
水下机器人的动力学模型构建方法、装置、设备及介质
自主水下航行 姿态动力学模型 动力学模型构建方法 水下机器人 计算机可执行指令
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号