摘要
本申请实施例属于人工智能领域,涉及一种唇音同步检测方法,包括:解析音视频的视频时间戳和音频时间戳,以根据视频时间戳和音频时间戳对音视频中的视频和音频进行对齐;将音视频分割为多个短片段;将各短片段输入唇音同步检测模型,并通过唇音同步检测模型中的短时模型输出各短片段的视频特征和音频特征;将各短片段的视频特征和音频特征输入唇音同步检测模型中的长时模型,得到音视频的跨模态长时序上下文信息;根据跨模态长时序上下文信息进行唇音同步检测,得到唇音同步检测结果。本申请还提供一种唇音同步检测装置、计算机设备及存储介质。本申请提高了音唇同步检测的准确性。
技术关键词
音视频
同步检测方法
音频特征
计算机可读指令
同步检测装置
插值算法
跨模态
计算机设备
时序
可读存储介质
视频帧
人脸
对齐模块
处理器
存储器
系统为您推荐了相关专利信息
乳房切除术后患者
云端管理平台
穿戴设备
计算机可读取存储介质
表面肌电
生命探测仪
音视频
摄像头旋转角度
远程监控中心
电机驱动装置
视频生成方法
视频编码
风格
音频特征
音频编码器
机器学习模型
注意力
对象
计算机可读指令
非暂态计算机可读存储介质