唇音同步处理及模型训练方法、电子设备及存储介质

AITNT
正文
推荐专利
唇音同步处理及模型训练方法、电子设备及存储介质
申请号:CN202410797796
申请日期:2024-06-19
公开号:CN118658100A
公开日期:2024-09-17
类型:发明专利
摘要
本申请实施例提供了一种唇音同步处理及模型训练方法、电子设备及存储介质,包括:对输入的人脸数据进行掩码处理,得到人脸掩码视频帧;对输入的音频数据进行语音特征提取,得到嘴部特征视频帧;生成嘴部特征视频帧的各级采样特征图;至少将人脸掩码视频帧输入到预训练扩散模型的主输入侧,并且将嘴部特征视频帧的各级采样特征图输入到预训练扩散模型中的第一条件输入侧,得到唇音同步视频。通过本申请实施例,可以使得数字人在说话视频中唇音更加同步。
技术关键词
嘴部特征 人脸 视频帧 语音特征提取 注意力 模型训练方法 编码器 样本 数据 通信接口 分阶段 像素 电子设备 计算机存储介质 音频 处理器 存储器 图像
系统为您推荐了相关专利信息
1
一种飞机起降场景识别方法
语义分割网络 场景识别方法 多尺度特征 融合特征 上下文特征
2
一种基于机器学习的术语数据智能管理系统
数据智能管理系统 机器学习模型 术语 优化调度算法 数据采集模块
3
一种大语言模型MCP赋能的RPA业务自动化方法
意图识别模型 业务流程数据 节点 大语言模型 自动化方法
4
一种基于Transformer-DCN模型的内部威胁检测方法
内部威胁检测方法 多头注意力机制 融合全局特征 网络安全风险 时间序列特征
5
IRS辅助机会型认知无人机网络波束追踪方法
波束追踪方法 基站 地面 无人机 交替迭代优化
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号