一种基于多模态的声音生成方法

正文

推荐专利

一种基于多模态的声音生成方法

申请号：CN202510571515

申请日期：2025-05-06

公开号：CN120452412A

公开日期：2025-08-08

类型：发明专利

摘要

本发明公开了一种基于多模态的声音生成方法，属于人工智能与多媒体生成技术领域，其包括以下步骤：S1、多模态输入：输入多模态内容，包括文本、视频、图像、音乐和音频；S2、特征提取；S3、特征对齐：对于三种提取的特征额外增加对应的三个小网络，将三种提取的特征在维度上对齐，生成对齐的三个特征；S4、特征拼接：将对齐的三个特征前后拼接，一起输入生成大模型；S5、大模型训练；S6、损失函数计算；S7、音频或音乐输出。本发明把包括文本、视频、图像、音乐和音频在内的多种模态作为输入，结合大模型的生成能力，生成高质量的音频或音乐，由于本发明输入是多种模态的，只需输入其中之一或多种，即可生成对应的音乐或音频。

技术关键词

声音生成方法多模态音乐文本视频音频特征模态特征拼接结构设计多尺度特征融合孤立森林算法噪声鲁棒性门控循环单元特征校验融合视觉干扰特征网络生成技术注意力编码

一种基于多模态的声音生成方法

站点导航

APP 下载