基于多模态大模型的文本到视频全链路生成方法及系统

AITNT
正文
推荐专利
基于多模态大模型的文本到视频全链路生成方法及系统
申请号:CN202510991328
申请日期:2025-07-18
公开号:CN120512591B
公开日期:2025-09-23
类型:发明专利
摘要
本发明公开了基于多模态大模型的文本到视频全链路生成方法及系统,属于人工智能生成内容技术领域,通过多个智能体协同工作,分析用户输入文本,构建跨模态记忆库,基于记忆库内容确保生成分镜的视频和音频的统一,实现从文本到视频的全流程自动生成;该方法的实现包括以下步骤:获取用户文本输入;文本分析,通过协同工作的Agent,从输入文本中动态提取、分析、生成、关联、存储图文音多模态信息,构建多模态记忆库;生成分镜,根据记忆库生成分镜视频和音频;音视频合成,音画同步对齐后形成最终视频。本发明能够实现长视频生成的叙事连贯性、提高分镜图的特征一致性、增强跨模态情感的一致性、减少人工干预、提高视频制作的效率。
技术关键词
链路生成方法 文本 实体 图片 记忆 多模态 音色特征 存储图文 音频 音视频 机器可读程序 生成提示词 图像风格迁移技术 跨模态 主题 镜头 列表
系统为您推荐了相关专利信息
1
视频处理方法及相关装置
文本 视频帧 剪辑方法 神经网络模型 图像
2
基于大模型的多层级领域知识问答方法及装置
知识问答方法 意图类别 文本 层级 意图识别
3
大数据环境下的实时数据分析与可视化方法及系统
语义相关度 分层注意力模型 层次化结构 语义向量 自然语言理解模型
4
基于颗粒形貌特征的矿物碎磨能量判别与解离程度智能识别方法
磁铁矿石 智能识别方法 冲击试验机 形貌特征 深度学习训练
5
基于多模态和LLM的疾病智能预测及辅助诊疗方法
辅助诊疗方法 影像 病况 多模态 特征提取算法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号