摘要
本发明公开了一种基于多模态融合的可控视频生成方法及系统,该方法包括获取多模态数据并对其进行预处理;提取特征向量并对其进行规范化处理,组合形成多模态特征矩阵;将多模态特征矩阵转换为特征序列;对特征序列中的各模态特征进行动态权重分配;将加权后的特征序列进行多层次深度融合,得到融合特征表示;将融合特征表示输入到多尺度时空注意力机制中,得到增强特征表示;依序使用空间注意力、时间注意力和交叉注意力模块进行处理,得到全局增强特征表示,生成多帧隐空间表示;解码生成高分辨率视频帧并进行后处理,得到最终的高质量视频序列。本发明保持了视频序列的时空连贯性,生成质量更高、可控性更强的视频内容。
技术关键词
视频生成方法
融合特征
深度图像数据
序列
径向基函数网络
梅尔频率倒谱系数
时空注意力机制
视频帧
多模态特征
位置编码信息
动态权重分配
纹理特征
生成高分辨率
系统为您推荐了相关专利信息
磁编码器
机械臂校准方法
序列
伺服电机带动
关系
顶升系统
建筑模块
液压千斤顶
异常检测方法
受力