摘要
本发明涉及人工智能领域,可应用于金融科技、医疗健康等业务系统平台中,公开了基于音频驱动的视频生成方法、装置、设备及介质,包括:获取驱动音频与参考视频;对驱动音频分别进行语音识别和声音特征提取,根据解耦的语义特征和说话人嵌入特征生成音频模态下的复合特征;对参考视频进行多层编码处理,得到多层人脸图像特征;根据多层人脸图像特征进行风格特征提取,得到风格特征;将音频模态下的复合特征、多层人脸图像特征以及风格特征输入到预先完成生成对抗训练的视频生成器中,对输入的特征进行多模态特征融合后融入空间语义信息解码生成与驱动音频对应的虚拟人视频。通过音频解耦得和多模态特征融合,提升虚拟人视频生成的自然性和真实性。
技术关键词
人脸图像特征
视频生成方法
音频
多模态特征融合
语义特征
嵌入特征
视频帧
非易失性计算机可读存储介质
声音特征提取
生成训练数据
计算机可执行指令
解码
视频编码器
样本
风格
视频特征提取
视频生成装置
系统为您推荐了相关专利信息
意图识别方法
多层次语义特征
多轮对话
语义向量空间
分类器
视频生成方法
边缘检测模型
游戏
文本识别
图像特征信息
多模态特征融合
序列特征
结构特征提取
样本
相互作用特征
识别系统
词嵌入技术
文本
注意力机制
Softmax函数
多模态特征融合
推荐系统
司机
数据处理模块
排序模型