摘要
本公开公开一种视频生成方法,人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于数字人等场景。该方法包括:提取目标音频的目标音频特征和参考图像中虚拟形象的虚拟形象特征;基于注意力机制,对目标音频特征和初始视频特征进行处理,得到目标视频特征,初始视频特征由虚拟形象特征与随机噪声拼接形成;以及对目标视频特征进行解码处理,得到目标视频,其中,目标视频包括虚拟形象基于目标音频言语表达的视频帧。本公开还提供了一种视频生成装置、智能体、电子设备及存储介质。
技术关键词
音频特征
注意力机制
视频生成方法
时序
随机噪声
视频生成装置
视频帧
电子设备
输入模块
关系
处理器
图像
人工智能技术
计算机程序产品
计算机视觉
解码
系统为您推荐了相关专利信息
重载工况
状态实时监测方法
演化特征
电铲
制动盘表面
样本
识别方法
识别模型训练
特征提取模块
识别标签
机器人运动参数
控制机器人运动
脉冲激光器
时序
运动补偿
肺部CT图像
特征提取模块
纹理细节特征
CT重建图像
解码器