一种基于多模态的声音生成方法

AITNT
正文
推荐专利
一种基于多模态的声音生成方法
申请号:CN202510571515
申请日期:2025-05-06
公开号:CN120452412A
公开日期:2025-08-08
类型:发明专利
摘要
本发明公开了一种基于多模态的声音生成方法,属于人工智能与多媒体生成技术领域,其包括以下步骤:S1、多模态输入:输入多模态内容,包括文本、视频、图像、音乐和音频;S2、特征提取;S3、特征对齐:对于三种提取的特征额外增加对应的三个小网络,将三种提取的特征在维度上对齐,生成对齐的三个特征;S4、特征拼接:将对齐的三个特征前后拼接,一起输入生成大模型;S5、大模型训练;S6、损失函数计算;S7、音频或音乐输出。本发明把包括文本、视频、图像、音乐和音频在内的多种模态作为输入,结合大模型的生成能力,生成高质量的音频或音乐,由于本发明输入是多种模态的,只需输入其中之一或多种,即可生成对应的音乐或音频。
技术关键词
声音生成方法 多模态 音乐 文本 视频 音频特征 模态特征 拼接结构设计 多尺度特征融合 孤立森林算法 噪声鲁棒性 门控循环单元 特征校验 融合视觉 干扰特征 网络 生成技术 注意力 编码
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号