摘要
本发明属于三维重建技术领域,公开了一种可语音交互的三维数字人生成方法及系统。本发明根据输入的目标文本和采样人声音频的语言不同,自动生成不同语言的全新说话音频;使用多模型联合估计与时序损失函数保障了三维人体运动的时序稳定性与细节还原能力,利于准确估计图像中面部表情细节和手部姿态。在估计得到的高精度三维人体模型后,基于语音驱动进行人体动作表情生成,实现语音生成的动作与表情的精准同步,准确生成符合全新说话音频的面部表情运动和身体姿态运动即全身三维人体模型;最后使用三维神经渲染模型将全身三维人体模型渲染为可语音交互的真人数字人。本发明利于实现从单张人物图片输入到高精度三维数字人的生成和语音交互。
技术关键词
三维人体模型
音色特征
生成方法
参数估计模型
面部
语音
音频特征提取
解码器
编码器
动作表情
关节特征
多层卷积网络
文本
图像
优化身体
顶点
系统为您推荐了相关专利信息
储层模型
归一化模块
前馈神经网络
整体空间结构
三维地质建模
视频融合方法
图像特征点
描述符
最佳缝合线
Hessian矩阵
早期诊断系统
眼球
早期诊断模型
帕金森病诊断
患者
大语言模型
样本生成方法
种子
深度神经网络
过滤器