基于视频点轨迹约束的视频描述方法与系统

AITNT
正文
推荐专利
基于视频点轨迹约束的视频描述方法与系统
申请号:CN202510875497
申请日期:2025-06-27
公开号:CN120375376B
公开日期:2025-08-22
类型:发明专利
摘要
本发明提出一种基于视频点轨迹约束的视频描述方法与系统,该方法包括:对关键帧图像采样并利用点跟踪算法获取连续帧间像素点的时空轨迹;对同一轨迹片段对应帧的视觉特征进行平均池化操作;对文本特征、视觉特征和轨迹特征先进行语义对齐再进行多头注意力特征融合;对轨迹片段对应的视觉区域进行语义相关性得分计算并按相关性得分降序排列,累积相关性得分并设定阈值;利用语言生成损失和聚焦损失联合优化视频点跟踪模型;对聚焦优化后的多源特征进行解码,得到最终的视频描述结果。本发明通过引入视频点轨迹聚合策略,在时空维度上显式建模目标的动态特征,保留了物体的空间外观与时间连贯性,有效解决了复杂场景下语义断裂和描述片段化问题。
技术关键词
注意力 轨迹特征 视觉特征 输出特征 文本 语义 网格 关键帧 多模态 像素点 编码向量 算法 解码 编码模块 图像 矩阵 视频帧
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号