摘要
本发明涉及一种基于多模态思维链的视频引导音频生成方法及系统,所述方法包括以下步骤:输入视频与文本指令生成初步音频;联合视频与初步音频,由多模态大语言模型判断旁白存在性及位置;基于多模态大语言模型的推理结果去除旁白并生成中间音频;检测及修复静音段;结合原始音频或负向提示优化输出,形成精细化音频。本发明通过多模态大模型对输入视频生成的音效进行推理,检测是否含有画外音,根据实际结果选择是否进行多步推理,能够提高合成音效的整体质量。
技术关键词
音频生成方法
多模态
大语言模型
生成系统
音效
数据
视频帧
文本
标签
模块
指令
编辑
语音
动态
系统为您推荐了相关专利信息
施工现场
多功能会议
管理系统
图像
视频会议模块
文本生成器
多头注意力机制
多层次特征融合
多模态
双向注意力机制
浓度检测方法
多模态数据融合
强化学习框架
浓度检测系统
水体
微视频流行度预测
融合多模态特征
模块
文本
注意力
缺陷辨识方法
分布式智能
计算机程序指令
异构
图谱