摘要
本发明公开了一种基于扩散模型及特征融合的单目三维人体姿态估计方法及装置,包括:从RGB图像传感器获取输入图像序列;从高斯噪声中采样获取输入三维姿态噪声;对输入图像序列进行图像预处理获得2D关键点、深度特征和图像特征;固定预先训练好的特征融合模型并融合输入的关键点,深度和图像特征,将其作为扩散模型的去噪条件;固定预先训练好的扩散模型,并基于预训练模型对噪声姿态进行扩散模型的去噪过程,输出准确的三维人体姿态。
技术关键词
人体骨骼点
神经网络结构
编码特征
关键点
注意力
序列
图像
单目深度估计
深度特征提取
三维人体姿态估计
特征提取模块
人体特征
图片
人体姿态数据
系统为您推荐了相关专利信息
眼底图像分割方法
噪声抑制
抑制高频噪声
编码器特征
输出特征
多模态
网络安全监测方法
多头注意力机制
分布式数据采集
图谱
图片生成方法
文本编码器
文本生成模型
身份
图像嵌入