一种面向多模态的多音频生成方法、装置、设备及介质

正文

推荐专利

申请号：CN202510686684

申请日期：2025-05-26

公开号：CN120564750A

公开日期：2025-08-29

类型：发明专利

摘要

本发明公开了一种面向多模态的多音频生成方法、装置、设备及介质，包括：对多模态输入进行任务分解，得到第一音频脚本集合；根据第一音频脚本集合的完整性评估结果，对第一音频脚本集合进行优化，得到第二音频脚本集合；根据第二音频脚本集合中的各音频脚本的类型，为各音频脚本分配一个音频生成模型，得到第一音频生成模型集合；根据第一音频生成模型集合的适配性评估结果，对第一音频生成模型集合进行优化，得到第二音频生成模型集合；由第二音频生成模型集合进行音频生成，得到音频集合；根据音频集合的准确性评估结果，对音频集合进行优化，生成多模态输入对应的多音频输出。因此，通过实施本发明，能够实现高质量的面向多模态的多音频生成。

技术关键词

音频生成方法脚本多模态模块模型库可读存储介质规划生成装置计算机处理器终端设备存储器语义

系统为您推荐了相关专利信息

一种中间件协同本地资源的视频编解码及渲染方法

视频编解码中间件渲染方法终端数据传输协议

一种车位识别与占用检测方法及系统

全景环视图像占用检测方法车位占用状态计算机可执行指令鱼眼摄像头

一种带记忆模块的烟火检测方法及系统

烟火检测方法矩阵样本 RANSAC算法标记

一种融合PET和CT双模态图像的病灶分割方法

医学图像分割模型融合特征注意力病灶分割方法点击特征

一种大模型检索处理方法及装置

键值存储结构数据节点关系图形处理器

一种面向多模态的多音频生成方法、装置、设备及介质

站点导航

APP 下载