摘要
本发明公开了融合多模态文本特征的视频文本检索人物轨迹生成方法,包括S1,视频输入与目标检测,得到图像中所有N个人物的目标框(x1,y1,x2,y2)坐标位置;S2,特征提取;S3,将人物坐标(x1,y1,x2,y2)、文本向量和图像特征向量送入DeepSort模型,然后进行特征匹配,并将匹配后的特征存储至MySQL数据库中;S4,轨迹分析与展示。本发明实现了对视频中的人物衣着、穿戴和骑行工具等方面的文本描述,通过对数据库匹配定位目标行动轨迹;另外在原本的目标跟踪中增加了多模态的文本描述特征,对文本描述通过Bert模型实现词向量化,并在目标跟踪中的匈牙利匹配环节增加文本描述向量损失,避免由于遮挡或者多目标人物重叠后的TrackID交换的问题。
技术关键词
人物轨迹生成方法
图像特征向量
文本
多模态
骑行工具
可视化工具
坐标
矩阵
YOLO模型
BERT模型
图像特征提取
匈牙利算法
视频流
卡尔曼滤波
衣着
对象
系统为您推荐了相关专利信息
智能照明控制系统
多模态传感器
多模态数据采集
指数
决策控制模块
健康状态监测方法
数字孪生体
图像特征数据
多头注意力机制
图像特征提取
案例库
知识抽取方法
文本
多智能体协作
信息抽取方法
文件防篡改方法
服务器节点
文本
加密
文件防篡改系统