摘要
本发明公开了基于多模态大模型的文本到视频全链路生成方法及系统,属于人工智能生成内容技术领域,通过多个智能体协同工作,分析用户输入文本,构建跨模态记忆库,基于记忆库内容确保生成分镜的视频和音频的统一,实现从文本到视频的全流程自动生成;该方法的实现包括以下步骤:获取用户文本输入;文本分析,通过协同工作的Agent,从输入文本中动态提取、分析、生成、关联、存储图文音多模态信息,构建多模态记忆库;生成分镜,根据记忆库生成分镜视频和音频;音视频合成,音画同步对齐后形成最终视频。本发明能够实现长视频生成的叙事连贯性、提高分镜图的特征一致性、增强跨模态情感的一致性、减少人工干预、提高视频制作的效率。
技术关键词
链路生成方法
文本
实体
图片
记忆
多模态
音色特征
存储图文
音频
音视频
机器可读程序
生成提示词
图像风格迁移技术
跨模态
主题
镜头
列表
系统为您推荐了相关专利信息
语义相关度
分层注意力模型
层次化结构
语义向量
自然语言理解模型
磁铁矿石
智能识别方法
冲击试验机
形貌特征
深度学习训练