基于细粒度语义描述的手势动作视频生成方法和装置

正文

推荐专利

申请号：CN202510038893

申请日期：2025-01-10

公开号：CN119444943B

公开日期：2025-04-11

类型：发明专利

摘要

本发明公开了一种基于细粒度语义描述的手势动作视频生成方法和装置，包括：对原始视频进行预处理和数据增强后，构建由视频帧和用于描述视频帧中手势动作的细粒度语义描述文本组成的样本数据；构建由视频编码模块、文本编码模块、降噪生成模块、以及视频解码模块组成的训练架构；基于视频编码模块中的加入噪声和降噪生成模块中的去噪噪声之差构建损失函数，利用损失函数仅优化降噪生成模块参数，参数优化后由文本编码模块、降噪生成模块、以及视频解码模块组成视频生成模型；利用视频生成模型基于输入的随机向量和描述手势动作的细粒度语义描述文本进行手势动作视频生成。这样基于细粒度语义描述文本生成高质量含有手势动作的通用数字人视频。

技术关键词

视频生成方法视频解码模块文本视频生成模型手势视频帧语义视频编码编码模块大语言模型样本噪声编码器视频生成装置数据手部关键点面部关键点

系统为您推荐了相关专利信息

一种基于LLM大模型的运维知识智能问答交互方法、装置及设备

智能问答方法智能问答交互方法运维知识图谱剩余寿命预测模型答案

表格文档识别方法、装置、电子设备和存储介质

文档识别方法表格识别文档图像文本识别模型文本行

一种智能分析简历匹配岗位方法、系统、设备及存储介质

标签文本企业人工智能对话 BERT模型

基于大模型的多粒度金融文本噪声开放分类方法

样本语义特征分类方法金融文本

一种应用于隐私号的涉诈防控处理方法和系统

号码客户特征选择通信服务技术事件流

基于细粒度语义描述的手势动作视频生成方法和装置

站点导航

APP 下载