一种面向多模态的多音频生成方法、装置、设备及介质

AITNT
正文
推荐专利
一种面向多模态的多音频生成方法、装置、设备及介质
申请号:CN202510686684
申请日期:2025-05-26
公开号:CN120564750A
公开日期:2025-08-29
类型:发明专利
摘要
本发明公开了一种面向多模态的多音频生成方法、装置、设备及介质,包括:对多模态输入进行任务分解,得到第一音频脚本集合;根据第一音频脚本集合的完整性评估结果,对第一音频脚本集合进行优化,得到第二音频脚本集合;根据第二音频脚本集合中的各音频脚本的类型,为各音频脚本分配一个音频生成模型,得到第一音频生成模型集合;根据第一音频生成模型集合的适配性评估结果,对第一音频生成模型集合进行优化,得到第二音频生成模型集合;由第二音频生成模型集合进行音频生成,得到音频集合;根据音频集合的准确性评估结果,对音频集合进行优化,生成多模态输入对应的多音频输出。因此,通过实施本发明,能够实现高质量的面向多模态的多音频生成。
技术关键词
音频生成方法 脚本 多模态 模块 模型库 可读存储介质 规划 生成装置 计算机 处理器 终端设备 存储器 语义
系统为您推荐了相关专利信息
1
一种中间件协同本地资源的视频编解码及渲染方法
视频编解码 中间件 渲染方法 终端 数据传输协议
2
一种车位识别与占用检测方法及系统
全景环视图像 占用检测方法 车位占用状态 计算机可执行指令 鱼眼摄像头
3
一种带记忆模块的烟火检测方法及系统
烟火检测方法 矩阵 样本 RANSAC算法 标记
4
一种融合PET和CT双模态图像的病灶分割方法
医学图像分割模型 融合特征 注意力 病灶分割方法 点击特征
5
一种大模型检索处理方法及装置
键值存储结构 数据 节点 关系 图形处理器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号