一种基于多模态大模型的长视频音效配音方法

正文

推荐专利

申请号：CN202510984195

申请日期：2025-07-17

公开号：CN120783786A

公开日期：2025-10-14

类型：发明专利

摘要

本发明涉及一种基于多模态大模型的长视频音效配音方法，步骤如下：采集并筛选数据；利用现有多模态大模型进行长视频的分析，提取其中的发声物体和物体运动的特征；提取的特征经过融合模块进行融合得到视频的全局特征和局部特征；全局特征作为V2A模型的额外条件，在整个长视频生成时作为参考；局部特征作为对应原长视频的额外输入，与对应时间的短视频一起输入V2A模型；利用V2A模型的短视频配音能力，根据多段短视频时序生成多段配音；每一段视频生成配音后保留V2A模型的缓存，提供给V2A模型生成下一段视频；逐段短视频生成的配音连接形成前后一致的长视频配音。本发明可以生成连续的、没有突变的配音音频，以及保留长视频物体前后发声的一致性。

技术关键词

配音方法多模态音效发声物体音频短视频样本时序音视频数据运动画面模块

系统为您推荐了相关专利信息

基于多通道神经网络的成果数据智能筛选方法及其系统

智能筛选方法神经网络模型多通道梯度算法数据

一种水下在线智能监测分析系统及方法

海底观测系统在线智能监测水下观测系统信息传输控制方法声学多普勒

一种基于多任务学习的森林生态灾害协同预测与评估方法

专用模块多任务病虫害火灾注意力机制

一种基于神经网络的康复机器人运动规划方法

康复机器人运动规划方法患者康复需求规划算法

一种基于数据治理的自动化决策方法及系统

决策方法特征工程方法数据融合特征多模态

一种基于多模态大模型的长视频音效配音方法

站点导航

APP 下载