基于多模态大模型的文本到视频全链路生成方法及系统

正文

推荐专利

申请号：CN202510991328

申请日期：2025-07-18

公开号：CN120512591B

公开日期：2025-09-23

类型：发明专利

摘要

本发明公开了基于多模态大模型的文本到视频全链路生成方法及系统，属于人工智能生成内容技术领域，通过多个智能体协同工作，分析用户输入文本，构建跨模态记忆库，基于记忆库内容确保生成分镜的视频和音频的统一，实现从文本到视频的全流程自动生成；该方法的实现包括以下步骤：获取用户文本输入；文本分析，通过协同工作的Agent，从输入文本中动态提取、分析、生成、关联、存储图文音多模态信息，构建多模态记忆库；生成分镜，根据记忆库生成分镜视频和音频；音视频合成，音画同步对齐后形成最终视频。本发明能够实现长视频生成的叙事连贯性、提高分镜图的特征一致性、增强跨模态情感的一致性、减少人工干预、提高视频制作的效率。

技术关键词

链路生成方法文本实体图片记忆多模态音色特征存储图文音频音视频机器可读程序生成提示词图像风格迁移技术跨模态主题镜头列表

系统为您推荐了相关专利信息

视频处理方法及相关装置

文本视频帧剪辑方法神经网络模型图像

基于大模型的多层级领域知识问答方法及装置

知识问答方法意图类别文本层级意图识别

大数据环境下的实时数据分析与可视化方法及系统

语义相关度分层注意力模型层次化结构语义向量自然语言理解模型

基于颗粒形貌特征的矿物碎磨能量判别与解离程度智能识别方法

磁铁矿石智能识别方法冲击试验机形貌特征深度学习训练

基于多模态和LLM的疾病智能预测及辅助诊疗方法

辅助诊疗方法影像病况多模态特征提取算法

基于多模态大模型的文本到视频全链路生成方法及系统

站点导航

APP 下载