摘要
本申请实施例提供了一种唇音同步处理及模型训练方法、电子设备及存储介质,包括:对输入的人脸数据进行掩码处理,得到人脸掩码视频帧;对输入的音频数据进行语音特征提取,得到嘴部特征视频帧;生成嘴部特征视频帧的各级采样特征图;至少将人脸掩码视频帧输入到预训练扩散模型的主输入侧,并且将嘴部特征视频帧的各级采样特征图输入到预训练扩散模型中的第一条件输入侧,得到唇音同步视频。通过本申请实施例,可以使得数字人在说话视频中唇音更加同步。
技术关键词
嘴部特征
人脸
视频帧
语音特征提取
注意力
模型训练方法
编码器
样本
数据
通信接口
分阶段
像素
电子设备
计算机存储介质
音频
处理器
存储器
图像
系统为您推荐了相关专利信息
语义分割网络
场景识别方法
多尺度特征
融合特征
上下文特征
数据智能管理系统
机器学习模型
术语
优化调度算法
数据采集模块
意图识别模型
业务流程数据
节点
大语言模型
自动化方法
内部威胁检测方法
多头注意力机制
融合全局特征
网络安全风险
时间序列特征