摘要
本发明公开了一种面向多模态的多音频生成方法、装置、设备及介质,包括:对多模态输入进行任务分解,得到第一音频脚本集合;根据第一音频脚本集合的完整性评估结果,对第一音频脚本集合进行优化,得到第二音频脚本集合;根据第二音频脚本集合中的各音频脚本的类型,为各音频脚本分配一个音频生成模型,得到第一音频生成模型集合;根据第一音频生成模型集合的适配性评估结果,对第一音频生成模型集合进行优化,得到第二音频生成模型集合;由第二音频生成模型集合进行音频生成,得到音频集合;根据音频集合的准确性评估结果,对音频集合进行优化,生成多模态输入对应的多音频输出。因此,通过实施本发明,能够实现高质量的面向多模态的多音频生成。
技术关键词
音频生成方法
脚本
多模态
模块
模型库
可读存储介质
规划
生成装置
计算机
处理器
终端设备
存储器
语义
系统为您推荐了相关专利信息
全景环视图像
占用检测方法
车位占用状态
计算机可执行指令
鱼眼摄像头
医学图像分割模型
融合特征
注意力
病灶分割方法
点击特征