摘要
本发明公开了一种基于细粒度语义描述的手势动作视频生成方法和装置,包括:对原始视频进行预处理和数据增强后,构建由视频帧和用于描述视频帧中手势动作的细粒度语义描述文本组成的样本数据;构建由视频编码模块、文本编码模块、降噪生成模块、以及视频解码模块组成的训练架构;基于视频编码模块中的加入噪声和降噪生成模块中的去噪噪声之差构建损失函数,利用损失函数仅优化降噪生成模块参数,参数优化后由文本编码模块、降噪生成模块、以及视频解码模块组成视频生成模型;利用视频生成模型基于输入的随机向量和描述手势动作的细粒度语义描述文本进行手势动作视频生成。这样基于细粒度语义描述文本生成高质量含有手势动作的通用数字人视频。
技术关键词
视频生成方法
视频解码模块
文本
视频生成模型
手势
视频帧
语义
视频编码
编码模块
大语言模型
样本
噪声
编码器
视频生成装置
数据
手部关键点
面部关键点
系统为您推荐了相关专利信息
智能问答方法
智能问答交互方法
运维知识图谱
剩余寿命预测模型
答案
文档识别方法
表格
识别文档图像
文本识别模型
文本行