摘要
本发明公开了一种基于三维时序表征学习的说话头像生成优化方法,包括:基于三维形变模型构建面部几何网格,提取说话头像视频的三维唇部运动信息;将三维唇部运动信息作为输入,通过重建网格三维序列构建蕴含三维时序信息的隐式空间,得到重建导向型三维时序表征学习算法;将三维唇部运动信息作为输入,利用序列数据增强策略与对比学习机制,得到对比增强型三维时序表征学习算法;采用说话头像生成模型生成说话头像视频,利用三维时序表征学习算法对其进行表征编码,基于三维唇部运动信息和三维时序表征构建监督信号增强模型生成的唇部动态真实性,通过三维几何空间建模与跨模态监督的方式,提升了说话头像视频的视觉真实性与音画同步精度。
技术关键词
时序
学习算法
头像
导向型
网格
三维形变模型
编码器
序列
视频
参数
运动
样本
解码器
多尺度特征提取
面部软组织
动态
语音同步
矢量量化
量化误差
系统为您推荐了相关专利信息
产线系统
远程服务器
强化学习模型
工业物联网
监测终端
信息统一交互
充电调度方法
行程
车辆
充电调度系统
城市河道水质
灰色关联度
Pearson相关系数
LightGBM模型
网格搜索算法
数字孪生体
测井曲线
数据
六面体
三维可视化展示
钽电解电容器
失效检测系统
多维时序数据
电子元器件检测技术
异常信号