摘要
本申请公开了一种音视频同步方法、装置、设备及存储介质,涉及音视频技术领域,上述方法包括:获取第一音频和第一视频;基于第一视频中的唇部图像,确定用于表征主讲人发言内容的第一文本以及第一文本的时间;基于第一音频,确定第二文本以及第二文本的时间,第二文本为第一音频的语义信息;在第一文本和第二文本之间的相似度高于预设相似度的情况下,确定时间差,时间差为第一文本的时间与第二文本的时间之间的差值;若时间差大于或等于预设时长,调整第一音频的起始时刻或第一视频的起始时刻,以实现第一音频和第一视频的同步。通过上述方法,可以在无需人工介入的情况下实现音视频同步,提升音视频同步的效率和准确率。
技术关键词
音视频同步方法
文本
音频
时间差
音视频同步装置
图像
语音识别模型
音视频技术
数据获取模块
处理器
语义
电子设备
可读存储介质
存储器
算法
计算机