语音驱动照片数字人三维人像表情和手势同步的数字人视频生成方法

AITNT
正文
推荐专利
语音驱动照片数字人三维人像表情和手势同步的数字人视频生成方法
申请号:CN202510022326
申请日期:2025-01-07
公开号:CN119835492A
公开日期:2025-04-15
类型:发明专利
摘要
本发明公开了一种语音驱动照片数字人三维人像表情和手势同步的数字人视频生成方法,集成了语音到面部表情系数序列的自动生成、语音到头部姿态运动系数序列的自动生成功能、语音到手势序列的自动生成,使用三维人像系数做为中间值把语音中的表情特征、头部运动特征和手势特征同步渲染到三维人像上,根据三维人像映射成二维图像作为视频帧,同时引入了图像增强模型,对视频帧进行增强,将增强的视频帧写入视频中并融合音频和视频,最终生成音频驱动的同步视频。使生成的视频同时带有面部表情、头部运动姿态和手势,具有同步性、身份一致性、面部更加清晰和自然的数字人视频。
技术关键词
视频生成方法 图像增强模型 序列 语音 照片 生成表情 训练判别模型 视频帧 音频编码器 面部 手势特征 表情特征 运动特征 残差网络 模块
系统为您推荐了相关专利信息
1
直播视频处理方法、装置、设备及存储介质
文本检测模型 文本识别模型 视频流 信令 服务端
2
基于数据挖掘的企业人才评鉴管理方法与系统
管理方法 时间序列预测技术 企业 数据 人力资源规划
3
一种绘画建议生成方法以及智能绘图辅助系统
绘画 建议生成方法 图像特征提取模型 智能绘图 线条特征
4
一种微指令操作方法和处理器
序列 生成微指令 处理器 填充器 算法
5
基于语音交互的音频数据的播放方法和装置、存储介质及计算机程序产品
终端设备 音频 云端服务器 语音 计算机程序产品
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号