摘要
本发明公开了一种基于多模态的声音生成方法,属于人工智能与多媒体生成技术领域,其包括以下步骤:S1、多模态输入:输入多模态内容,包括文本、视频、图像、音乐和音频;S2、特征提取;S3、特征对齐:对于三种提取的特征额外增加对应的三个小网络,将三种提取的特征在维度上对齐,生成对齐的三个特征;S4、特征拼接:将对齐的三个特征前后拼接,一起输入生成大模型;S5、大模型训练;S6、损失函数计算;S7、音频或音乐输出。本发明把包括文本、视频、图像、音乐和音频在内的多种模态作为输入,结合大模型的生成能力,生成高质量的音频或音乐,由于本发明输入是多种模态的,只需输入其中之一或多种,即可生成对应的音乐或音频。
技术关键词
声音生成方法
多模态
音乐
文本
视频
音频特征
模态特征
拼接结构设计
多尺度特征融合
孤立森林算法
噪声鲁棒性
门控循环单元
特征校验
融合视觉
干扰特征
网络
生成技术
注意力
编码