摘要
本申请实施例属于人工智能领域,涉及一种唇音同步检测方法,包括:解析音视频的视频时间戳和音频时间戳,以根据视频时间戳和音频时间戳对音视频中的视频和音频进行对齐;将音视频分割为多个短片段;将各短片段输入唇音同步检测模型,并通过唇音同步检测模型中的短时模型输出各短片段的视频特征和音频特征;将各短片段的视频特征和音频特征输入唇音同步检测模型中的长时模型,得到音视频的跨模态长时序上下文信息;根据跨模态长时序上下文信息进行唇音同步检测,得到唇音同步检测结果。本申请还提供一种唇音同步检测装置、计算机设备及存储介质。本申请提高了音唇同步检测的准确性。
技术关键词
音视频
同步检测方法
音频特征
计算机可读指令
同步检测装置
插值算法
跨模态
计算机设备
时序
可读存储介质
视频帧
人脸
对齐模块
处理器
存储器
系统为您推荐了相关专利信息
智能监控方法
迁移学习技术
深度学习算法
强化学习算法
计算机可读指令
导航模型训练方法
强化学习算法
视频帧
决策
计算机可读指令
消防机器人
路径规划方法
障碍物
计算机可读指令
网络
长短期记忆网络
待测设备
音频特征
神经网络模型
蓝牙