基于多模态融合的可控视频生成方法及系统

正文

推荐专利

基于多模态融合的可控视频生成方法及系统

申请号：CN202411580043

申请日期：2024-11-07

公开号：CN119091362B

公开日期：2025-03-14

类型：发明专利

摘要

本发明公开了一种基于多模态融合的可控视频生成方法及系统，该方法包括获取多模态数据并对其进行预处理；提取特征向量并对其进行规范化处理，组合形成多模态特征矩阵；将多模态特征矩阵转换为特征序列；对特征序列中的各模态特征进行动态权重分配；将加权后的特征序列进行多层次深度融合，得到融合特征表示；将融合特征表示输入到多尺度时空注意力机制中，得到增强特征表示；依序使用空间注意力、时间注意力和交叉注意力模块进行处理，得到全局增强特征表示，生成多帧隐空间表示；解码生成高分辨率视频帧并进行后处理，得到最终的高质量视频序列。本发明保持了视频序列的时空连贯性，生成质量更高、可控性更强的视频内容。

技术关键词

视频生成方法融合特征深度图像数据序列径向基函数网络梅尔频率倒谱系数时空注意力机制视频帧多模态特征位置编码信息动态权重分配纹理特征生成高分辨率

系统为您推荐了相关专利信息

机械臂校准方法、装置、设备、存储介质和程序产品

磁编码器机械臂校准方法序列伺服电机带动关系

一种千吨级顶升系统的异常检测方法、设备及介质

顶升系统建筑模块液压千斤顶异常检测方法受力

任务确定方法、装置、电子设备及存储介质

无人机陆地运载工具策略规划路径优化算法

基于机械臂的物体放置方法和装置、电子设备及存储介质

抓取动作图像网络示教数据物体

一种对应力应变曲线进行预测和修正的处理方法和装置

应力序列参数曲线误差函数

基于多模态融合的可控视频生成方法及系统

站点导航

APP 下载