摘要
本发明提出一种基于视频点轨迹约束的视频描述方法与系统,该方法包括:对关键帧图像采样并利用点跟踪算法获取连续帧间像素点的时空轨迹;对同一轨迹片段对应帧的视觉特征进行平均池化操作;对文本特征、视觉特征和轨迹特征先进行语义对齐再进行多头注意力特征融合;对轨迹片段对应的视觉区域进行语义相关性得分计算并按相关性得分降序排列,累积相关性得分并设定阈值;利用语言生成损失和聚焦损失联合优化视频点跟踪模型;对聚焦优化后的多源特征进行解码,得到最终的视频描述结果。本发明通过引入视频点轨迹聚合策略,在时空维度上显式建模目标的动态特征,保留了物体的空间外观与时间连贯性,有效解决了复杂场景下语义断裂和描述片段化问题。
技术关键词
注意力
轨迹特征
视觉特征
输出特征
文本
语义
网格
关键帧
多模态
像素点
编码向量
算法
解码
编码模块
图像
矩阵
视频帧