语音驱动照片数字人三维人像表情和手势同步的数字人视频生成方法

正文

推荐专利

申请号：CN202510022326

申请日期：2025-01-07

公开号：CN119835492A

公开日期：2025-04-15

类型：发明专利

摘要

本发明公开了一种语音驱动照片数字人三维人像表情和手势同步的数字人视频生成方法，集成了语音到面部表情系数序列的自动生成、语音到头部姿态运动系数序列的自动生成功能、语音到手势序列的自动生成,使用三维人像系数做为中间值把语音中的表情特征、头部运动特征和手势特征同步渲染到三维人像上，根据三维人像映射成二维图像作为视频帧，同时引入了图像增强模型，对视频帧进行增强，将增强的视频帧写入视频中并融合音频和视频，最终生成音频驱动的同步视频。使生成的视频同时带有面部表情、头部运动姿态和手势，具有同步性、身份一致性、面部更加清晰和自然的数字人视频。

技术关键词

视频生成方法图像增强模型序列语音照片生成表情训练判别模型视频帧音频编码器面部手势特征表情特征运动特征残差网络模块

系统为您推荐了相关专利信息

直播视频处理方法、装置、设备及存储介质

文本检测模型文本识别模型视频流信令服务端

基于数据挖掘的企业人才评鉴管理方法与系统

管理方法时间序列预测技术企业数据人力资源规划

一种绘画建议生成方法以及智能绘图辅助系统

绘画建议生成方法图像特征提取模型智能绘图线条特征

一种微指令操作方法和处理器

序列生成微指令处理器填充器算法

基于语音交互的音频数据的播放方法和装置、存储介质及计算机程序产品

终端设备音频云端服务器语音计算机程序产品

语音驱动照片数字人三维人像表情和手势同步的数字人视频生成方法

站点导航

APP 下载