摘要
本申请实施例属于图像处理技术领域,应用于以图像进行视频生成场景中,涉及一种视频生成方法、装置、设备及其存储介质,通过获取用于视频生成的素材集;对素材图像、文本嵌入数据和描述语音数据进行图像‑文本‑语音三者间映射化整理;识别出每张素材图像在进行视频生成过程中分别需要加入的文本嵌入数据,以及每张素材图像分别对应的描述语音时长;将描述语音时长作为视频生成指导参数,添加到预设的视频生成模型中;将素材集输入到视频生成模型中,结合视频生成指导参数生成目标视频。将本申请所述的视频生成方法,应用到医学实验或者教学视频生成场景中,能够辅助医学教育和科研,改善了医学教育和科研时的指导视频生成方式。
技术关键词
视频生成模型
视频生成方法
图像编码
文本
计算机可读指令
编解码结构
噪声特征
数据
序列
语音编码
生成场景
参数
编码特征
生成方式
视频生成装置
可读存储介质
图像处理技术