交互数字人生成模型的训练方法、交互数字人的生成方法、装置、存储介质和程序产品

正文

推荐专利

申请号：CN202510624370

申请日期：2025-05-15

公开号：CN120146139B

公开日期：2025-09-09

类型：发明专利

摘要

本公开涉及图像生成技术领域，尤其涉及一种交互数字人生成模型的训练方法、交互数字人的生成方法、装置、存储介质和程序产品。所述交互数字人生成模型包括对话大语言模型和数字人驱动模型，且所述数字人驱动模型与所述对话大语言模型的目标隐含层连接，所述方法包括：将训练音频片段输入所述对话大语言模型，通过所述目标隐含层输出所述训练音频片段对应的第一音频特征向量；通过所述数字人驱动模型基于所述第一音频特征向量，生成所述训练音频片段对应的合成视频帧序列；根据所述训练音频片段对应的目标视频帧序列和所述合成视频帧序列，更新所述数字人驱动模型的参数。本公开能够降低交互数字人的响应延迟，并使数字人形象更自然。

技术关键词

大语言模型音频编码器视频帧序列非易失性计算机可读存储介质图像特征向量图像解码器音频解码器语音同步文本图像编码器训练装置生成方法语音识别训练图像生成技术生成装置处理器参数存储器

交互数字人生成模型的训练方法、交互数字人的生成方法、装置、存储介质和程序产品

站点导航

APP 下载