摘要
本申请涉及一种基于AIGC的智能MV生成方法、系统、设备及介质,属于人工智能生成内容技术领域。其中,方法包括:接收用户输入的原始音乐文件和用户指令;对原始音乐文件进行音频预处理生成标准化音频信号,并将用户指令映射为语义向量;提取节奏特征和情感特征,生成音乐特征向量并与语义向量进行特征对齐,基于扩散模型生成初始关键帧序列;对初始关键帧序列进行粒子特效密度动态调整和镜头切换点生成,输出增强关键帧序列并进行光流插帧和长时序预测,生成优化视频帧序列;根据目标平台参数对优化视频帧序列进行分块并行渲染,生成MV文件及元数据。本申请能够实现音频与视觉内容的深度融合,并根据用户的个性化需求生成高质量的视频内容。
技术关键词
关键帧
序列
语义向量
节奏特征
镜头
MFCC特征
生成方法
情感特征
视频帧
音乐
矩阵
粒子
强化学习策略
音频
运动矢量场
风格
网络优化
频段
时序
参数
系统为您推荐了相关专利信息
动态时间规整
标定方法
地震子波提取
勘探技术
卷积模型
客服工单
数据分析方法
斯皮尔曼等级相关系数
分类特征
计算机可执行指令
深度卷积神经网络模型
跟踪方法
图像校正
环境光照强度
动态配置参数