一种基于多模态思维链的视频引导音频生成方法及系统

正文

推荐专利

申请号：CN202510475212

申请日期：2025-04-16

公开号：CN120340533A

公开日期：2025-07-18

类型：发明专利

摘要

本发明涉及一种基于多模态思维链的视频引导音频生成方法及系统，所述方法包括以下步骤：输入视频与文本指令生成初步音频；联合视频与初步音频，由多模态大语言模型判断旁白存在性及位置；基于多模态大语言模型的推理结果去除旁白并生成中间音频；检测及修复静音段；结合原始音频或负向提示优化输出，形成精细化音频。本发明通过多模态大模型对输入视频生成的音效进行推理，检测是否含有画外音，根据实际结果选择是否进行多步推理，能够提高合成音效的整体质量。

技术关键词

音频生成方法多模态大语言模型生成系统音效数据视频帧文本标签模块指令编辑语音动态

系统为您推荐了相关专利信息

一种适用于施工现场的多功能会议管理系统

施工现场多功能会议管理系统图像视频会议模块

一种基于LLMs大语言模型的半结构化文件处理方法

文本生成器多头注意力机制多层次特征融合多模态双向注意力机制

一种基于大数据分析的水体污染物浓度检测系统及方法

浓度检测方法多模态数据融合强化学习框架浓度检测系统水体

一种微视频流行度预测系统及方法

微视频流行度预测融合多模态特征模块文本注意力

一种结合异构光谱与分布式智能的阀厅设备多维缺陷辨识方法及设备

缺陷辨识方法分布式智能计算机程序指令异构图谱

一种基于多模态思维链的视频引导音频生成方法及系统

站点导航

APP 下载