摘要
本申请公开了一种动作数据生成方法、装置、设备、存储介质和程序产品,涉及人工智能技术领域,包括:获得目标语音的音频特征以及目标语音对应的文本;基于对文本的语义理解,确定文本中需要数字人同步执行肢体动作的目标文本段,每个目标文本段对应的肢体动作的类别,以及每个目标文本段对应的待生成的骨架动作序列中的各个动作帧的位置编码;对应每个目标文本段,至少将音频特征、该目标文本段对应的肢体动作的类别以及该目标文本段对应的各个动作帧的位置编码作为扩散模型的控制条件,通过扩散模型生成与该目标文本段对应的骨架动作序列。本申请提高了基于骨架动作序列驱动的数字人的肢体动作与语音内容的匹配度。
技术关键词
文本
标记标签
音频特征
序列
数据生成方法
骨架特征
节奏特征
视频
电子设备
计算机可读指令
编码
训练样本集
姿态估计
噪声
数据生成装置
语音信号处理
语义
手部关键点
意图
系统为您推荐了相关专利信息
判定方法
社交
机器可读程序
假设解码器
大数据分析技术
核酸检测系统
DNA芯片
生物素
引物
纳米孔技术
智能感知方法
多传感器融合设计
智能感知系统
剔除算法
深度学习模型