一种基于视觉语义聚类优化的文本视频行人重识别方法

正文

推荐专利

申请号：CN202411701583

申请日期：2024-11-26

公开号：CN119832465A

公开日期：2025-04-15

类型：发明专利

摘要

一种基于视觉语义聚类优化的文本视频行人重识别方法，首先通过从视频中提取帧并利用视觉编码器生成特征向量，结合视觉语义优化策略，对特征向量进行聚类。同时，采用运动编码模块对视频中的运动信息进行编码，生成相应的运动特征。随后，将视觉特征与运动特征进行融合，以生成蕴含丰富时空信息的视频特征。此外，通过文本编码器对文本描述进行编码，生成文本特征，并将文本特征与视频特征投影至一个共同的嵌入空间，最终利用余弦相似度进行相似性度量。最终，通过优化损失函数，使相关的文本和视频嵌入更加接近，不相关的则更加疏远，以实现文本和行人视频的有效检索。该方法在文本视频跨模态行人重识别任务中显著提升了算法的效率与准确性。

技术关键词

视频行人重识别方法运动特征视觉特征语义聚类标记文本编码器编码模块补丁 Softmax函数运动编码器生成特征向量多头注意力机制时间序列特征 BERT模型

系统为您推荐了相关专利信息

一种MCP工具的发布方法和装置

转换器响应报文转换工具管理器节点关系

一种无人机反制方法

运动特征无人机反制方法雷达信号多普勒

一种业务监测方法、装置、设备及可读存储介质

实时业务业务监测方法原始业务资料语义业务监测装置

可再生能源绿证数据多维分类与监控管理方法

标签可再生能源匹配分析方法监控管理方法数据管理技术

数字化教学资源库智能管理与应用方法及系统

资源更新指数知识点教师大数据分析模型

一种基于视觉语义聚类优化的文本视频行人重识别方法

站点导航

APP 下载