摘要
本公开提供了一种视频生成方法、装置、电子设备、存储介质和程序产品,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于数字人、基于人工智能的内容生成等场景。该方法包括:获取描述文本的文本特征、参考图像中虚拟形象的形象特征和音频的音频特征,描述文本指示了基于音频驱动虚拟形象的动作描述信息;将角色特征与音频特征绑定,得到目标音频特征,角色特征与参考图像中对应虚拟形象相关联,角色特征用于指示目标音频特征与形象特征之间的关联关系;基于文本特征、形象特征和目标音频特征生成目标视频,目标视频包括基于音频驱动虚拟形象按照动作描述信息发出声音的多个视频帧。
技术关键词
音频特征
样本
视频生成模型
视频帧
视频生成方法
文本
多头注意力机制
编码向量
动作特征
图像
融合特征
标签
时序特征
视频生成装置
输入模块
电子设备
关系
处理器
系统为您推荐了相关专利信息
分类方法
回波
神经网络分类器
螺旋桨飞机
喷气式飞机
图像分类方法
特征提取模型
拉普拉斯
远程监控程序
特征值
攻击检测模块
报文
入侵检测系统
特征提取模块
车载入侵检测方法
医疗问答系统
样本
联合损失函数
后处理模块
关键词
高阶神经网络
故障诊断方法
核电设备
生成对抗网络
量子态