摘要
本发明公开了一种特定人物的视频生成方法、装置、设备及介质。该方法包括:根据用户输入的待生成视频的视频提示词以及目标人物的人脸图像,分别获取提示词文本生成特征以及抽象人脸面部特征;通过多模态变压器扩散生成模型,对提示词文本生成特征以及抽象人脸面部特征进行多轮处理,获取目标人物相关图像;其中,多模态变压器扩散生成模型中通过跨注意力机制实现特征融合;根据目标人物相关图像,生成特定人物视频。采用上述技术方案,能够实现仅需单张人物图像,即可生成特定人物视频,算力消耗低,耗时较短,能够高效、便捷的获取特定人物的视频,提高用户的使用体验。
技术关键词
人脸面部特征
生成特征
视频生成方法
文本
多模态
视频生成模型
人脸特征
人脸图像识别
注意力机制
多层感知机
变压器
预训练模型
视频生成装置
图像获取模块
处理器
可读存储介质
特征提取模块
系统为您推荐了相关专利信息
医疗文本数据
胎心
时序神经网络
大语言模型
长短期记忆网络
碰撞监测方法
驾驶员眼动特征
车辆运行轨迹
投影检测方法
深度学习模型
知识图谱推理方法
三元组
自然语言文本
逻辑
实体
音频控制方法
构建用户画像
多模态
噪声
车辆运行数据