摘要
本发明公开了一种基于语音输入的个性化全身动作生成方法,该方法包括:获取适用于人体模型的身体参数,以及提取用户的音频特征;基于身体参数,针对头部模型和身体模型,分别构建来自两个变分自编码器的的分离量化潜在空间;从用户的音频特征中提取节奏和文本内容,为头部模型和身体模型分别生成融合有音频的内容和节奏且相适宜的特征表示;遮罩姿势进行处理,编码有效的身体提示信息,并通过时间交叉注意力选择性融合音频特征和身体提示信息,实现遮罩姿势的重建;分别解码头部和身体的动作信息,并估计全局平移,生成最终的全身动作。本发明充分挖掘和利用数据特征提高动作生成的准确性和自然度,使得生成的动作更符合音频内容。
技术关键词
动作生成方法
音频特征
头部模型
节奏特征
人体模型
姿势
参数
头部动作信息
身体姿态数据
人体生理特征
交叉注意力机制
时间卷积网络
卷积编码器
处理器
解码
矢量量化
系统为您推荐了相关专利信息
电极主体
电极系统
递送系统
医学图像数据
钴基合金材料
哭声识别
混合核函数
K近邻算法
时域特征提取
频域特征提取
真实世界图像
现实系统
图像处理模块
信息存储单元
坐标
听诊器
音频识别方法
深度神经网络
信号预处理模块
音频特征信息