摘要
本发明提供一种定制化人物视频生成方法和装置,该方法包括:步骤1,基于具有先验知识的文本生成图像模型,结合以人物为中心的图像和视频数据,构建基础的姿态可控的人物视频生成模型;步骤2,通过参考视频中的姿态信息和文本描述构建训练数据集,微调所述人物视频生成模型的图像生成部分,学习参考人物的外观特征;步骤3,在已微调的所述人物视频生成模型基础上集成时序层,利用视频数据进行微调,增强所述人物视频生成模型对时间序列信息的建模能力,保持所述人物视频生成模型的先验知识;步骤4,输入自定义文本以及姿势图序列,利用微调后的所述人物视频生成模型,生成具有自定义场景和姿态的个性化视频。该方法克服了现有技术局限,降低计算资源开销,不仅提升了生成视频的个性化程度,还增强了对复杂场景和多样化姿态的生成能力,显著扩展了模型的应用范围与灵活性。
技术关键词
视频生成模型
文本生成图像
视频生成方法
时间序列信息
个性化视频
自定义场景
姿态可控
非暂态计算机可读存储介质
视频生成装置
基础
数据
注意力
模块
标识符
姿势
计算机程序产品
时序
系统为您推荐了相关专利信息
视频时空特征
视频生成模型
文本
动作特征
图像编码
数据智能分析方法
时间序列信息
护理设备
可视化交互界面
动态特征提取
叶片表面缺陷
识别分析方法
长短记忆网络
特征金字塔网络
缺陷轮廓
视频生成方法
像素
集成成像显示装置
阵列
四维光场信息