基于多模态融合的可控视频生成方法及系统

AITNT
正文
推荐专利
基于多模态融合的可控视频生成方法及系统
申请号:CN202411580043
申请日期:2024-11-07
公开号:CN119091362B
公开日期:2025-03-14
类型:发明专利
摘要
本发明公开了一种基于多模态融合的可控视频生成方法及系统,该方法包括获取多模态数据并对其进行预处理;提取特征向量并对其进行规范化处理,组合形成多模态特征矩阵;将多模态特征矩阵转换为特征序列;对特征序列中的各模态特征进行动态权重分配;将加权后的特征序列进行多层次深度融合,得到融合特征表示;将融合特征表示输入到多尺度时空注意力机制中,得到增强特征表示;依序使用空间注意力、时间注意力和交叉注意力模块进行处理,得到全局增强特征表示,生成多帧隐空间表示;解码生成高分辨率视频帧并进行后处理,得到最终的高质量视频序列。本发明保持了视频序列的时空连贯性,生成质量更高、可控性更强的视频内容。
技术关键词
视频生成方法 融合特征 深度图像数据 序列 径向基函数网络 梅尔频率倒谱系数 时空注意力机制 视频帧 多模态特征 位置编码信息 动态权重分配 纹理特征 生成高分辨率
系统为您推荐了相关专利信息
1
机械臂校准方法、装置、设备、存储介质和程序产品
磁编码器 机械臂校准方法 序列 伺服电机带动 关系
2
一种千吨级顶升系统的异常检测方法、设备及介质
顶升系统 建筑模块 液压千斤顶 异常检测方法 受力
3
任务确定方法、装置、电子设备及存储介质
无人机 陆地运载工具 策略 规划 路径优化算法
4
基于机械臂的物体放置方法和装置、电子设备及存储介质
抓取动作 图像 网络 示教数据 物体
5
一种对应力应变曲线进行预测和修正的处理方法和装置
应力 序列 参数 曲线 误差函数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号