摘要
本公开实施例公开了一种动作视频生成方法、相关装置和介质,该方法通过获取与目标虚拟角色关联的目标音频,将目标音频编码为目标音频特征;获取与目标虚拟角色关联的目标引导内容,将目标引导内容和预设提示文本输入到预设的大语言模型进行文本预测,生成至少一个用于描述目标虚拟角色的语义标签,将语义标签编码为语义标签特征;利用扩散模型根据目标音频特征和语义标签特征对预设噪声特征进行去噪,得到目标动作序列;基于目标动作序列生成目标虚拟角色的目标动作视频。本公开能够生成更为契合虚拟角色自身特点的动作数据,提高所生成的动作数据的精细度和准确度,能够广泛地应用在虚拟角色建模、虚拟角色驱动等场景。
技术关键词
噪声特征
视频生成方法
语义标签
音频特征
噪声系数
样本
序列
动作特征
标签特征
音频编码
文本
平方根
融合特征
注意力
大语言模型
计算机程序产品
视频生成装置
系统为您推荐了相关专利信息
饲草
品质识别方法
样本
机器可读存储介质
传感器
数据实时处理方法
数据实时处理系统
异构
语义标签
格式
电网监测系统
通讯接口单元
能源管理
光伏设备
识别模块