摘要
本说明书实施例提供了一种动作合成方法,该方法通过确定输入视频相应关键点序列;然后基于关键点序列执行加噪处理;并在对噪声序列进行去噪处理的过程中,将噪声序列和特征信息作为条件引导扩散概率模型执行分段训练进程,其第一阶段基于音频特征进行,其第二阶段在第一阶段的隐空间中基于语义特征进行;该训练后的扩散概率模型可以用于合成对象动作。应用上述训练得到的扩散概率模型能够实现多样性的动作合成过程,由于在训练进程中第二阶段在第一阶段隐空间继续生成稳定的序列结构,在音频特征的基础上,细化描述了语义特征,提高了动作合成的准确性。
技术关键词
音频特征
语义特征
标识特征
序列
对象
视频帧
进程
噪声
关键点
服务端
输出特征
模块
风格
客户端
数据
计算机程序产品
注意力机制
处理器
系统为您推荐了相关专利信息
卷积神经网络模型
事件流数据
卷积长短期记忆
动态场景
多通道
音频编码器
音频特征
音频解码器
大语言模型
对话生成方法