摘要
本申请属于人工智能领域与金融科技领域,涉及一种基于人工智能的数字人视频生成方法、装置、计算机设备及存储介质,包括:获取用户输入的人脸图像与话术文本;基于分层表示模型对人脸图像进行三维人脸重建得到三维人脸模型;从三维人脸模型中提取三维人脸模型参数;基于用户触发的对于三维人脸模型参数的调整处理得到目标三维人脸模型参数;基于语音合成组件对话术文本进行语音生成处理得到目标语音;基于合成模型对目标三维人脸模型参数与目标语音进行数字人视频合成得到目标数字人视频;将目标数字人视频返回给用户。此外,目标数字人视频可存储于区块链中。本申请基于分层表示模型与合成模型的使用,有效提高了生成的数字人视频的真实感。
技术关键词
三维人脸模型
视频生成方法
三维人脸重建
语音
计算机可读指令
参数
文本
分层
图像
面部特征
感知损失函数
视频生成装置
计算机设备
模块
可读存储介质
策略
界面
生成算法
系统为您推荐了相关专利信息
应急演练系统
VR眼镜
水电站
控制终端
现场画面
可视化界面
多尺度特征
图像组合
全局平均池化
注意力机制
虚拟现实头戴式设备
图像数据采集模块
健康监控系统
穿戴设备
触觉反馈模块
大语言模型
视频生成模型
噪声预测
多模态
视频帧特征
语音情感识别方法
MFCC特征
融合特征
语音情感识别系统
语音情感识别技术