摘要
本发明公开了一种多模态数字人生成方法和系统,包括:图片生成数字人模块、视频生成数字人模块和视频翻译模块;涉及深度合成技术领域,解决了现有技术的数字人生成方式的扩展性和灵活性不高的技术问题;本发明通过对参考图像进行处理生成得到3D面部模型;基于脸部渲染器和外观编码器将运动系数和第一音频信号生成第一数字人;从原始视频中提取出指定时长的音频并标记为原始音频;将翻译文本转换为对应的目标音频,将目标音频与原始视频合成为翻译视频。本发明通过3DMM技术将参考图像生成得到3D面部模型,使得3D面部模型能够保持人物的身份特征并生成自然的动态表情,有利于提高生成的数字人与用户之间的互动体验。
技术关键词
关键点
生成数字人
生成系统
面部
多模态
视频
姿态先验
图像
文本
编码器
信号
语音识别模型
序列
生成方法
姿态特征
对齐模块
音频特征
头部姿态信息
系统为您推荐了相关专利信息
情绪识别方法
教学场景
文本特征向量
图像特征向量
情绪识别技术
交互式数字
生成对抗网络
多模态数据库
混合聚类算法
多模态数据采集
光信号采集装置
电信号检测装置
焊接材料
性能测试方法
试件
占用栅格
数据标注方法
传感器
非易失性计算机可读存储介质
遮挡关系