基于细粒度语义描述的手势动作视频生成方法和装置

AITNT
正文
推荐专利
基于细粒度语义描述的手势动作视频生成方法和装置
申请号:CN202510038893
申请日期:2025-01-10
公开号:CN119444943B
公开日期:2025-04-11
类型:发明专利
摘要
本发明公开了一种基于细粒度语义描述的手势动作视频生成方法和装置,包括:对原始视频进行预处理和数据增强后,构建由视频帧和用于描述视频帧中手势动作的细粒度语义描述文本组成的样本数据;构建由视频编码模块、文本编码模块、降噪生成模块、以及视频解码模块组成的训练架构;基于视频编码模块中的加入噪声和降噪生成模块中的去噪噪声之差构建损失函数,利用损失函数仅优化降噪生成模块参数,参数优化后由文本编码模块、降噪生成模块、以及视频解码模块组成视频生成模型;利用视频生成模型基于输入的随机向量和描述手势动作的细粒度语义描述文本进行手势动作视频生成。这样基于细粒度语义描述文本生成高质量含有手势动作的通用数字人视频。
技术关键词
视频生成方法 视频解码模块 文本 视频生成模型 手势 视频帧 语义 视频编码 编码模块 大语言模型 样本 噪声 编码器 视频生成装置 数据 手部关键点 面部关键点
系统为您推荐了相关专利信息
1
一种基于LLM大模型的运维知识智能问答交互方法、装置及设备
智能问答方法 智能问答交互方法 运维知识图谱 剩余寿命预测模型 答案
2
表格文档识别方法、装置、电子设备和存储介质
文档识别方法 表格 识别文档图像 文本识别模型 文本行
3
一种智能分析简历匹配岗位方法、系统、设备及存储介质
标签 文本 企业 人工智能对话 BERT模型
4
基于大模型的多粒度金融文本噪声开放分类方法
样本 语义特征 分类方法 金融 文本
5
一种应用于隐私号的涉诈防控处理方法和系统
号码 客户 特征选择 通信服务技术 事件流
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号