摘要
本申请涉及音画智能同步领域,具体公开了一种视频会议音画同步方法及系统,其通过对接收并初步处理(如乱序重排、编解码)后的音频样本和视频流提取各自的深层语义特征—例如音频的梅尔频谱图语义特征和视频片段的语义特征,并利用图学习算法在这些高维语义特征之间进行匹配搜索。这种方法能够模拟人眼和人耳对音画内容关联性的感知,从而更准确地捕捉和量化两者之间的真实时间偏移,即使在传统时间戳可能失效或不准确的复杂场景下,也能精确估算出音画播放偏移量。最终,基于此偏移量对音视频数据块进行调整和渲染,旨在从根本上提升音画同步的精度和鲁棒性。
技术关键词
RTP数据包
视频流
音画同步方法
编码向量
语义特征提取
语义关联度
三维卷积神经网络模型
显示器屏幕
样本
搜索模块
图谱
序列
卷积网络模型
网络接口
音频编解码
节点
系统为您推荐了相关专利信息
三维点云数据
实时视频流
图像识别模型
激光雷达
识别算法
数控机床电气控制系统
时序特征
编码向量
数控机床执行机构
流场构造
排放特征
编码向量
数据项
排放预测方法
语义特征
判读方法
关键帧
导向滤波器
视频流
质心计算方法