一种基于多模态大模型的长视频音效配音方法

AITNT
正文
推荐专利
一种基于多模态大模型的长视频音效配音方法
申请号:CN202510984195
申请日期:2025-07-17
公开号:CN120783786A
公开日期:2025-10-14
类型:发明专利
摘要
本发明涉及一种基于多模态大模型的长视频音效配音方法,步骤如下:采集并筛选数据;利用现有多模态大模型进行长视频的分析,提取其中的发声物体和物体运动的特征;提取的特征经过融合模块进行融合得到视频的全局特征和局部特征;全局特征作为V2A模型的额外条件,在整个长视频生成时作为参考;局部特征作为对应原长视频的额外输入,与对应时间的短视频一起输入V2A模型;利用V2A模型的短视频配音能力,根据多段短视频时序生成多段配音;每一段视频生成配音后保留V2A模型的缓存,提供给V2A模型生成下一段视频;逐段短视频生成的配音连接形成前后一致的长视频配音。本发明可以生成连续的、没有突变的配音音频,以及保留长视频物体前后发声的一致性。
技术关键词
配音方法 多模态 音效 发声 物体 音频 短视频 样本 时序 音视频 数据 运动 画面 模块
系统为您推荐了相关专利信息
1
基于多通道神经网络的成果数据智能筛选方法及其系统
智能筛选方法 神经网络模型 多通道 梯度算法 数据
2
一种水下在线智能监测分析系统及方法
海底观测系统 在线智能监测 水下观测系统 信息传输控制方法 声学多普勒
3
一种基于多任务学习的森林生态灾害协同预测与评估方法
专用模块 多任务 病虫害 火灾 注意力机制
4
一种基于神经网络的康复机器人运动规划方法
康复机器人 运动规划方法 患者 康复需求 规划算法
5
一种基于数据治理的自动化决策方法及系统
决策方法 特征工程方法 数据 融合特征 多模态
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号