一种基于视觉语义聚类优化的文本视频行人重识别方法

AITNT
正文
推荐专利
一种基于视觉语义聚类优化的文本视频行人重识别方法
申请号:CN202411701583
申请日期:2024-11-26
公开号:CN119832465A
公开日期:2025-04-15
类型:发明专利
摘要
一种基于视觉语义聚类优化的文本视频行人重识别方法,首先通过从视频中提取帧并利用视觉编码器生成特征向量,结合视觉语义优化策略,对特征向量进行聚类。同时,采用运动编码模块对视频中的运动信息进行编码,生成相应的运动特征。随后,将视觉特征与运动特征进行融合,以生成蕴含丰富时空信息的视频特征。此外,通过文本编码器对文本描述进行编码,生成文本特征,并将文本特征与视频特征投影至一个共同的嵌入空间,最终利用余弦相似度进行相似性度量。最终,通过优化损失函数,使相关的文本和视频嵌入更加接近,不相关的则更加疏远,以实现文本和行人视频的有效检索。该方法在文本视频跨模态行人重识别任务中显著提升了算法的效率与准确性。
技术关键词
视频行人 重识别方法 运动特征 视觉特征 语义 聚类 标记 文本编码器 编码模块 补丁 Softmax函数 运动编码器 生成特征向量 多头注意力机制 时间序列特征 BERT模型
系统为您推荐了相关专利信息
1
一种MCP工具的发布方法和装置
转换器 响应报文转换 工具管理器 节点 关系
2
一种无人机反制方法
运动特征 无人机反制方法 雷达 信号 多普勒
3
一种业务监测方法、装置、设备及可读存储介质
实时业务 业务监测方法 原始业务资料 语义 业务监测装置
4
可再生能源绿证数据多维分类与监控管理方法
标签 可再生能源 匹配分析方法 监控管理方法 数据管理技术
5
数字化教学资源库智能管理与应用方法及系统
资源更新 指数 知识点 教师 大数据分析模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号