一种基于多模态思维链的视频引导音频生成方法及系统

AITNT
正文
推荐专利
一种基于多模态思维链的视频引导音频生成方法及系统
申请号:CN202510475212
申请日期:2025-04-16
公开号:CN120340533A
公开日期:2025-07-18
类型:发明专利
摘要
本发明涉及一种基于多模态思维链的视频引导音频生成方法及系统,所述方法包括以下步骤:输入视频与文本指令生成初步音频;联合视频与初步音频,由多模态大语言模型判断旁白存在性及位置;基于多模态大语言模型的推理结果去除旁白并生成中间音频;检测及修复静音段;结合原始音频或负向提示优化输出,形成精细化音频。本发明通过多模态大模型对输入视频生成的音效进行推理,检测是否含有画外音,根据实际结果选择是否进行多步推理,能够提高合成音效的整体质量。
技术关键词
音频生成方法 多模态 大语言模型 生成系统 音效 数据 视频帧 文本 标签 模块 指令 编辑 语音 动态
系统为您推荐了相关专利信息
1
一种适用于施工现场的多功能会议管理系统
施工现场 多功能会议 管理系统 图像 视频会议模块
2
一种基于LLMs大语言模型的半结构化文件处理方法
文本生成器 多头注意力机制 多层次特征融合 多模态 双向注意力机制
3
一种基于大数据分析的水体污染物浓度检测系统及方法
浓度检测方法 多模态数据融合 强化学习框架 浓度检测系统 水体
4
一种微视频流行度预测系统及方法
微视频流行度预测 融合多模态特征 模块 文本 注意力
5
一种结合异构光谱与分布式智能的阀厅设备多维缺陷辨识方法及设备
缺陷辨识方法 分布式智能 计算机程序指令 异构 图谱
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号