摘要
本公开涉及图像生成技术领域,尤其涉及一种交互数字人生成模型的训练方法、交互数字人的生成方法、装置、存储介质和程序产品。所述交互数字人生成模型包括对话大语言模型和数字人驱动模型,且所述数字人驱动模型与所述对话大语言模型的目标隐含层连接,所述方法包括:将训练音频片段输入所述对话大语言模型,通过所述目标隐含层输出所述训练音频片段对应的第一音频特征向量;通过所述数字人驱动模型基于所述第一音频特征向量,生成所述训练音频片段对应的合成视频帧序列;根据所述训练音频片段对应的目标视频帧序列和所述合成视频帧序列,更新所述数字人驱动模型的参数。本公开能够降低交互数字人的响应延迟,并使数字人形象更自然。
技术关键词
大语言模型
音频编码器
视频帧
序列
非易失性计算机可读存储介质
图像特征向量
图像解码器
音频解码器
语音同步
文本
图像编码器
训练装置
生成方法
语音识别训练
图像生成技术
生成装置
处理器
参数
存储器