摘要
本说明书实施例提供一种视频生成方法及装置,该方法包括:获取包含不同人脸的多个人脸图像以及用于指示生成视频内容的第一文本;基于各人脸图像,通过编码加噪处理,得到第一特征,其中,第一特征基于噪声特征和各人脸图像中各人脸的人脸编码特征确定;分别对各人脸图像进行特征提取,确定各人脸对应的人脸视觉特征;融合第一文本对应的文本特征和各人脸视觉特征,得到第二特征;基于第一特征、第二特征以及各人脸对应的人脸视觉特征,生成包含各人脸的目标视频,其中,各人脸对应的人脸视觉特征用于确定各人脸在目标视频中的位置,以实现生成包含多人脸的视频。
技术关键词
视觉特征
生成视频内容
视频生成方法
编码特征
噪声特征
掩膜
交叉注意力机制
文本
图像
视频生成装置
融合特征
前馈神经网络
身份
多人脸
样本
系统为您推荐了相关专利信息
关键词
视频生成方法
计算机可读指令
视频生成装置
数据融合算法
螺旋桨故障诊断
动态门控
声学特征
视觉特征
注意力
序列特征
异常检测系统
数据
机器学习分类模型
特征提取模块