摘要
本申请提出的音唇同步检测方法和装置、电子设备、存储介质,涉及人工智能技术领域,适用于金融科技领域及医疗健康领域。该方法包括:获取目标音视频数据,目标音视频数据包括目标混合音频和目标人脸视频序列;对目标混合音频进行音频编码,得到目标混合音频特征;通过目标语音编码模型对目标混合音频进行语音编码,得到目标说话人多模态特征;对目标人脸视频序列进行视觉编码,得到目标视觉特征;根据目标混合音频特征、目标说话人多模态特征和目标视觉特征进行特征融合,得到目标音唇特征;对目标音唇特征进行音唇同步分类,得到音唇同步类别。本申请能够降低音频中的噪声对音唇同步检测的不良影响,提高了音唇同步检测的准确性。
技术关键词
模态特征
语音编码
音频特征
去噪模型
样本
视觉特征
语音特征
重构
音唇同步检测装置
音视频
人脸
融合特征
音频编码器
上下文特征
系统为您推荐了相关专利信息
优化设计方法
建筑模型
三维建模软件
变量
拉丁超立方抽样