摘要
本公开实施例公开了一种基于参考图像的视频生成方法、装置、设备、介质和产品,方法包括:获取的文本信息和包括目标视频的主角对象的多帧参考图像对文本信息进行编码处理得到文本特征,对各参考图像进行图像特征提取得到各参考图像的图像特征,对各图像特征进行拼接处理得到拼接特征,基于拼接特征、文本特征和预设噪声,利用预先训练的视频生成模型进行预设个时间步的去噪处理,生成针对主角对象的目标视频。由此在生成目标视频时,视频生成模型可以同时关注到文本特征和拼接特征,可以更好的学习到主角对象和文本信息,生成关于主角对象的目标视频,提升了用户体验。
技术关键词
键特征
视频生成模型
查询特征
融合特征
图像特征提取
标签文本
视频生成方法
噪声
计算机程序指令
样本
对象
交叉注意力机制
视频生成装置
模块
存储计算机程序
系统为您推荐了相关专利信息
调距桨液压系统
俯仰指令
故障诊断方法
故障诊断系统
多模态
智能机械人
分类识别模型
执行交互指令
智慧医疗系统
生成上下文感知
融合特征
跨尺度特征融合
分层特征
归一化模块
局部细节特征