摘要
本发明提出一种可交互的定制化数字人生成系统及生成方法,属于人工智能技术领域,本发明为解决传统数字人技术难以对视频、图片和动作序列等多模态信息进行处理以及难以根据用户行为的交互生成同步的视频的问题,其中定制化数字人生成系统包括:用户行为编码模块、反应预测模块、同步模块和反应显示模块;用户行为编码模块用于对采样得到的信号进行多模态用户行为融合;反应预测模块用于对融合后的多模态用户行为进行特征映射,反推出面部反应预测结果;同步模块用于用于进行用户反应行为自身的同步以及用户和反应者的行为同步;反应显示模块用于对同步后的特征采用编码的反向处理的方式进行解码,生成同步的反应视频。
技术关键词
子模块
音频特征
多维边缘特征
生成系统
文本
面部特征点
生成方法
编码模块
交互模型
解码
信号
人脸图像提取
多模态数据融合
注意力机制
视觉
自动语音识别