摘要
本发明公开了一种人体动作视频生成方法、设备及介质,属于视频生成领域,其方法:根据骨架序列计算不同视频帧中骨架相似度,基于骨架相似度构建参考关键帧集合,基于置信度分数及阈值,预测被遮蔽的高于阈值的骨架关键点为目标,预训练骨架预测网络,使用骨架预测网络修正置信度低于阈值的骨架关键点,分别提取置信度分数高于阈值的骨架关键点和修正过的全部骨架关键点的特征并拼接,作为视频模型的生成条件,利用参考关键帧集合,及生成条件,通过近似引导生成前一个去噪步数的视频片段,使用滑动窗口策略,生成全部视频片段;并循环,直到生成整个人体动作视频;设备及介质用于实现该方法;本发明提高了长视频生成的一致性、生成效率及鲁棒性。
技术关键词
关键帧
视频生成方法
关键点特征
置信度阈值
坐标
多层感知机
视频生成模型
注意力
网络
视频生成设备
生成视频片段
人体
序列
滑动窗口
可读存储介质
编码器
视频段
图像
系统为您推荐了相关专利信息
裂缝自动识别
卷积模块
控制点
路面裂缝分割
语义特征提取