基于多模态和音频驱动的数字人构建方法

正文

推荐专利

基于多模态和音频驱动的数字人构建方法

申请号：CN202510160633

申请日期：2025-02-13

公开号：CN120088377A

公开日期：2025-06-03

类型：发明专利

摘要

本发明公开了一种基于多模态和音频驱动的数字人构建方法，通过精细设计的多模态特征提取和融合模块，实现音频信号与人脸特征的深度联合嵌入，并采用多任务判别器机制，逐步引导高质量视频帧生成。该方法包括音频编码、人脸特征编码、多模态特征融合、解码渲染以及多尺度判别等关键技术环节，通过先进的深度学习策略，确保生成的数字人视频在唇部动作、情感表达和时序同步性上达到高度一致性。本发明尤其突出的是通过音视频对比学习和双重引导机制，不仅实现了数字人的精准音唇同步，还提升了生成视频的视觉质量和细节丰富度，在虚拟主播、智能交互等数字人应用领域具有重要的技术价值和广阔的实践前景。

技术关键词

音唇同步音频特征视频帧人脸特征音频编码器注意力多尺度身份图像编码器模块人脸表情韵律学信息解码器多任务多模态特征融合时序

系统为您推荐了相关专利信息

确定音频特征的方法、装置、智能设备及系统

音频特征智能设备标识算法服务器

混合场景下的事件检索方法、系统、电子设备及存储介质

事件检索方法图像视频流标签场景

一种用于智能养老社区的社区数据管理系统

数据管理系统视频帧社区监控视频监控单元监控设备

一种面向公共安全场景的多算法融合系统

算法面向公共安全人脸特征融合系统模块

基于单张照片的三维头像模型生成方法

模型生成方法人脸特征点检测照片头像三维头部模型

基于多模态和音频驱动的数字人构建方法

站点导航

APP 下载