摘要
一种基于多层级注意力扩散模型的手语骨骼点序列生成方法,包括:获取手语图片中人的上半身和手部关键点和相对应的Gloss数据,将获取的高维度手语关键点数据映射到低维度空间中,将原始的手语序列帧数据转换为更紧凑、更具有表征性的隐空间表征Latent。同时,将Gloss数据由文本序列处理为向量形式,输入深度学习模型Gloss‑Based Latent Space Predictor(GLSP),预测得到手语关键点的隐空间表征Latent。将所述生成的隐空间表征Latent输入正向扩散模型,采用分区域冻结网络的训练方式,通过逐渐添加高斯噪声的方式来对原始数据进行破坏,随后在反向扩散阶段,通过学习逆转扩散过程,进而从噪声数据中恢复原始输入数据,利用生成模型去预测原始手语骨骼点分布;生成手语骨骼点序列具有连贯性强、语义准确的优点。
技术关键词
手语
序列生成方法
空间预测器
区域特征提取
序列帧
手部关键点
注意力
噪声数据
文本
语义特征
特征数据信息
网络
滑动窗口
关节点
深度学习算法
系统为您推荐了相关专利信息
序列帧
三维重建方法
生成三维建筑模型
图像
模型训练模块
复合水凝胶
高性能
丙烯酰胺单体
手语手势
表面活性剂