音唇同步检测方法和装置、电子设备、存储介质

正文

推荐专利

申请号：CN202511288882

申请日期：2025-09-09

公开号：CN120932633A

公开日期：2025-11-11

类型：发明专利

摘要

本申请提出的音唇同步检测方法和装置、电子设备、存储介质，涉及人工智能技术领域，适用于金融科技领域及医疗健康领域。该方法包括：获取目标音视频数据，目标音视频数据包括目标混合音频和目标人脸视频序列；对目标混合音频进行音频编码，得到目标混合音频特征；通过目标语音编码模型对目标混合音频进行语音编码，得到目标说话人多模态特征；对目标人脸视频序列进行视觉编码，得到目标视觉特征；根据目标混合音频特征、目标说话人多模态特征和目标视觉特征进行特征融合，得到目标音唇特征；对目标音唇特征进行音唇同步分类，得到音唇同步类别。本申请能够降低音频中的噪声对音唇同步检测的不良影响，提高了音唇同步检测的准确性。

技术关键词

模态特征语音编码音频特征去噪模型样本视觉特征语音特征重构音唇同步检测装置音视频人脸融合特征音频编码器上下文特征

系统为您推荐了相关专利信息

一种沉积数值模拟加速方法、装置及设备

模拟河流物理适配器方程人工智能交叉技术

跨模态特征对齐驱动的大模型迁移优化系统

稀疏特征模态特征模型训练模块指数锚点

一种基于机器学习和顺序凝固的薄壁铸件缩松控制方法

薄壁铸件冒口模壳熔模铸造保温棉

一种基于YOLOv7的轻量级无人机图像落水人员检测算法

无人机注意力机制图片图像 ReLU函数

一种建筑碳排放的优化设计方法

优化设计方法建筑模型三维建模软件变量拉丁超立方抽样

音唇同步检测方法和装置、电子设备、存储介质

站点导航

APP 下载