唇音同步处理及模型训练方法、电子设备及存储介质

正文

推荐专利

申请号：CN202410797796

申请日期：2024-06-19

公开号：CN118658100A

公开日期：2024-09-17

类型：发明专利

摘要

本申请实施例提供了一种唇音同步处理及模型训练方法、电子设备及存储介质，包括：对输入的人脸数据进行掩码处理，得到人脸掩码视频帧；对输入的音频数据进行语音特征提取，得到嘴部特征视频帧；生成嘴部特征视频帧的各级采样特征图；至少将人脸掩码视频帧输入到预训练扩散模型的主输入侧，并且将嘴部特征视频帧的各级采样特征图输入到预训练扩散模型中的第一条件输入侧，得到唇音同步视频。通过本申请实施例，可以使得数字人在说话视频中唇音更加同步。

技术关键词

嘴部特征人脸视频帧语音特征提取注意力模型训练方法编码器样本数据通信接口分阶段像素电子设备计算机存储介质音频处理器存储器图像

系统为您推荐了相关专利信息

一种飞机起降场景识别方法

语义分割网络场景识别方法多尺度特征融合特征上下文特征

一种基于机器学习的术语数据智能管理系统

数据智能管理系统机器学习模型术语优化调度算法数据采集模块

一种大语言模型MCP赋能的RPA业务自动化方法

意图识别模型业务流程数据节点大语言模型自动化方法

一种基于Transformer-DCN模型的内部威胁检测方法

内部威胁检测方法多头注意力机制融合全局特征网络安全风险时间序列特征

IRS辅助机会型认知无人机网络波束追踪方法

波束追踪方法基站地面无人机交替迭代优化

唇音同步处理及模型训练方法、电子设备及存储介质

站点导航

APP 下载