摘要
一种基于视觉语义聚类优化的文本视频行人重识别方法,首先通过从视频中提取帧并利用视觉编码器生成特征向量,结合视觉语义优化策略,对特征向量进行聚类。同时,采用运动编码模块对视频中的运动信息进行编码,生成相应的运动特征。随后,将视觉特征与运动特征进行融合,以生成蕴含丰富时空信息的视频特征。此外,通过文本编码器对文本描述进行编码,生成文本特征,并将文本特征与视频特征投影至一个共同的嵌入空间,最终利用余弦相似度进行相似性度量。最终,通过优化损失函数,使相关的文本和视频嵌入更加接近,不相关的则更加疏远,以实现文本和行人视频的有效检索。该方法在文本视频跨模态行人重识别任务中显著提升了算法的效率与准确性。
技术关键词
视频行人
重识别方法
运动特征
视觉特征
语义
聚类
标记
文本编码器
编码模块
补丁
Softmax函数
运动编码器
生成特征向量
多头注意力机制
时间序列特征
BERT模型
系统为您推荐了相关专利信息
实时业务
业务监测方法
原始业务资料
语义
业务监测装置
标签
可再生能源
匹配分析方法
监控管理方法
数据管理技术