摘要
本发明公开了一种基于多模型协作的图生视频及配乐的方法及系统,该方法首先利用图生文大模型对图片信息进行解析与理解,将其转换为语言和文字。随后,通过文生文大模型将图片表达的文字信息生成有条理的故事,再利用文生视频大模型将故事信息转化为视频。视频生成后,通过解构和抽取算法,从视频中抽取关键帧,并使用图生文模型进行情感分析,最终结合文生音乐大模型生成配乐。本发明提供了一种将单张图片转换为具有连贯情节和配乐的视频文件的方法,大幅降低了视频创作的技术门槛,推动了UGC内容创作的普及。此外,本发明还包括一个用户友好的APP、电脑网页和微信小程序系统,方便用户多途径使用该技术。
技术关键词
抽取算法
视频
识别关键帧
转移概率矩阵
序列
关系型数据库管理系统
多模型
马尔可夫链模型
图片
长短期记忆网络
文本
风格
后处理模块
音乐特征
程序系统
情感词典
支持向量机
系统为您推荐了相关专利信息
高空抛物检测方法
序列
图像块特征
局部细节特征
线性变换矩阵
水听器
信号采集系统
水下相机
叠加特征
干扰特征
深度神经网络模型
风险预测方法
拓扑图
风险预测装置
序列数据处理