基于视觉-语言大模型的特征融合的网格恢复方法及系统

正文

推荐专利

申请号：CN202411071293

申请日期：2024-08-06

公开号：CN119007184A

公开日期：2024-11-22

类型：发明专利

摘要

本发明公开了基于视觉‑语言大模型的特征融合的网格恢复方法及系统，该方法包括：对原始视频序列进行预处理得到图像语义文本以及图像向量，对图像向量、图像语义文本进行特征提取得到视觉特征向量、文本特征向量；将同一帧的视觉特征向量与文本特征向量进行拼接再进行基于线性变换网络的特征交互得到初始融合特征；针对任一帧，结合前后帧信息并基于聚合网络聚合组内各帧的初始融合特征得到每一帧对应的组间聚合特征；利用每一帧的组间聚合特征对SMPL模型参数进行迭代更新，进而回归出完整的3D人体网格。本发明融合文本特征和视觉特征并有效地结合前后帧信息，全面地对有遮挡或视觉歧义的视频数据预测出平滑的3D人体网格序列。

技术关键词

融合特征文本特征向量视觉特征提取参数视频恢复方法图像特征提取器网格语义序列人体标签网络恢复特征提取模块电子终端

系统为您推荐了相关专利信息

一种基于计算机视觉的高炉泥炮机打泥量测量方法及系统

标尺装置计算机视觉测量方法运动视频数据直线

临床试验项目工时分析管理系统

分析管理系统分析管理装置员工像素点视频分析

一种自动识别判断牡蛎裹粉效果的方法

牡蛎肉裹粉三维点云数据曲面定型模具

一种噪声聋职业病风险检测系统及方法

风险预测模型噪声数据风险检测系统移动平均滤波数据采集模块

一种光学遥感浅海水深反演方法及设备

浅海水深反演方法反演模型反射率数据曲率特征校正

基于视觉-语言大模型的特征融合的网格恢复方法及系统

站点导航

APP 下载