摘要
本发明实施例提供一种多语义视频处理方法、装置、设备、介质和程序产品,该方法包括:先从空间角度进行特征提取,以得到待处理视频中视频帧各自的空间特征,再从时间角度进行特征提取,以得到视频帧各自的时空特征。进而,根据各视频帧的时空特征得到整个待处理视频的时空特征。最终,可以根据整个待处理视频的时空特征来对视频的语义进行分析,以定位出视频中的语义边界点,即语义发生变化的目标视频帧。其中,时空特征在反映视频帧中对象的空间信息、颜色信息以及对象的姿态变化信息等。因此,整个视频的时空特征可以更加完整、准确地反映对象在视频中的姿态变化,从而可以更细粒度的进行视频的语义分析,提高视频中语义边界点的定位准确性。
技术关键词
视频帧
空间特征提取
语义分析模型
采样率
非暂时性机器可读存储介质
特征提取网络
交叉注意力机制
校准
特征校验
解码网络
嵌入位置信息
解码器
序列
处理器
编辑
对象
计算机程序产品
蒸馏
系统为您推荐了相关专利信息
图传方法
无人机
空间特征提取
信号塔
正交幅度调制
人体姿态估计方法
WIFI设备
信道状态信息
穿墙
接收端