摘要
本发明涉及一种基于多模态大模型的长视频音效配音方法,步骤如下:采集并筛选数据;利用现有多模态大模型进行长视频的分析,提取其中的发声物体和物体运动的特征;提取的特征经过融合模块进行融合得到视频的全局特征和局部特征;全局特征作为V2A模型的额外条件,在整个长视频生成时作为参考;局部特征作为对应原长视频的额外输入,与对应时间的短视频一起输入V2A模型;利用V2A模型的短视频配音能力,根据多段短视频时序生成多段配音;每一段视频生成配音后保留V2A模型的缓存,提供给V2A模型生成下一段视频;逐段短视频生成的配音连接形成前后一致的长视频配音。本发明可以生成连续的、没有突变的配音音频,以及保留长视频物体前后发声的一致性。
技术关键词
配音方法
多模态
音效
发声
物体
音频
短视频
样本
时序
音视频
数据
运动
画面
模块
系统为您推荐了相关专利信息
智能筛选方法
神经网络模型
多通道
梯度算法
数据
海底观测系统
在线智能监测
水下观测系统
信息传输控制方法
声学多普勒
康复机器人
运动规划方法
患者
康复需求
规划算法