基于多模态和音频驱动的数字人构建方法

AITNT
正文
推荐专利
基于多模态和音频驱动的数字人构建方法
申请号:CN202510160633
申请日期:2025-02-13
公开号:CN120088377A
公开日期:2025-06-03
类型:发明专利
摘要
本发明公开了一种基于多模态和音频驱动的数字人构建方法,通过精细设计的多模态特征提取和融合模块,实现音频信号与人脸特征的深度联合嵌入,并采用多任务判别器机制,逐步引导高质量视频帧生成。该方法包括音频编码、人脸特征编码、多模态特征融合、解码渲染以及多尺度判别等关键技术环节,通过先进的深度学习策略,确保生成的数字人视频在唇部动作、情感表达和时序同步性上达到高度一致性。本发明尤其突出的是通过音视频对比学习和双重引导机制,不仅实现了数字人的精准音唇同步,还提升了生成视频的视觉质量和细节丰富度,在虚拟主播、智能交互等数字人应用领域具有重要的技术价值和广阔的实践前景。
技术关键词
音唇同步 音频特征 视频帧 人脸特征 音频编码器 注意力 多尺度 身份 图像 编码器模块 人脸表情 韵律学信息 解码器 多任务 多模态特征融合 时序
系统为您推荐了相关专利信息
1
确定音频特征的方法、装置、智能设备及系统
音频特征 智能设备 标识 算法 服务器
2
混合场景下的事件检索方法、系统、电子设备及存储介质
事件检索方法 图像 视频流 标签 场景
3
一种用于智能养老社区的社区数据管理系统
数据管理系统 视频帧 社区监控 视频监控单元 监控设备
4
一种面向公共安全场景的多算法融合系统
算法 面向公共安全 人脸特征 融合系统 模块
5
基于单张照片的三维头像模型生成方法
模型生成方法 人脸特征点检测 照片 头像 三维头部模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号