摘要
本发明公开了基于视觉‑语言大模型的特征融合的网格恢复方法及系统,该方法包括:对原始视频序列进行预处理得到图像语义文本以及图像向量,对图像向量、图像语义文本进行特征提取得到视觉特征向量、文本特征向量;将同一帧的视觉特征向量与文本特征向量进行拼接再进行基于线性变换网络的特征交互得到初始融合特征;针对任一帧,结合前后帧信息并基于聚合网络聚合组内各帧的初始融合特征得到每一帧对应的组间聚合特征;利用每一帧的组间聚合特征对SMPL模型参数进行迭代更新,进而回归出完整的3D人体网格。本发明融合文本特征和视觉特征并有效地结合前后帧信息,全面地对有遮挡或视觉歧义的视频数据预测出平滑的3D人体网格序列。
技术关键词
融合特征
文本特征向量
视觉特征提取
参数
视频
恢复方法
图像
特征提取器
网格
语义
序列
人体
标签
网络恢复
特征提取模块
电子终端
系统为您推荐了相关专利信息
标尺装置
计算机视觉
测量方法
运动视频数据
直线
分析管理系统
分析管理装置
员工
像素点
视频分析
风险预测模型
噪声数据
风险检测系统
移动平均滤波
数据采集模块
浅海水深反演方法
反演模型
反射率数据
曲率特征
校正