摘要
本申请实施例公开了一种视频生成方法、装置、电子设备及计算机可读存储介质,属于视频生成技术领域。本申请实施例通过获取参考图像和提示文本,并将参考图像和提示文本输入视频生成模型,能够得到视频生成模型输出的目标视频;其中,视频生成模型包括图像提示模块和目标生成模块。本申请实施例利用图像提示模块对参考图像和提示文本进行解耦处理,能够更显性地保留图像特征,进而有效避免直接耦合导致语义混淆,实现图文特征的高效对齐与精细化控制,使得目标生成模块能够基于图像提示模块输出的目标图像特征和目标文本特征,生成更为精准、符合用户预期的高质量视频,进而提升用户体验。
技术关键词
视频生成模型
视频生成方法
图像
文本
注意力
后处理模块
信号生成单元
可读存储介质
视频生成技术
视频生成装置
输入端
电子设备
数据获取模块
计算机
处理器
边缘检测
深度图
系统为您推荐了相关专利信息
混合医学图像
配准方法
多层感知机
多尺度
空间变换网络
流场重建方法
匹配跟踪方法
水面
ROI图像
网格
图像传感阵列
辣椒粉
产地鉴别方法
数据融合技术
近红外光谱采集装置
货仓
管控方法
色彩
矩阵
非易失性计算机存储介质