一种基于视觉语言知识引入的零样本多模态第一视角行为识别方法

正文

推荐专利

申请号：CN202411024976

申请日期：2024-07-29

公开号：CN119203019B

公开日期：2025-10-17

类型：发明专利

摘要

该发明公开了一种基于视觉语言知识引入的零样本多模态第一视角行为识别方法，属于多模态行为识别领域。本发明首先将视觉模态输入预训练的CLIP视觉编码器提取视觉特征，将经过STFT变换的加速度计模态、陀螺仪模态频谱图提取对应的特征，文本通过预训练的CLIP文本编码器提取到文本特征。然后将视觉特征传入到适配器模块，将零样本知识与新的自适应特征知识进行动态结合，得到最终的视觉特征。加速度计模态、陀螺仪模态通过惯性传感器融合模块得到最终的惯性传感器特征。最后将文本、视觉、惯性传感器特征一同输入多模态融合模块，充分考虑不同模态间对齐的问题，有效地提升模态融合的效果。该方法在零样本多模态第一视角行为识别任务上表现令人满意。

技术关键词

视觉特征多模态惯性传感器数据识别方法适配器可穿戴智能眼镜视角文本编码器陀螺仪样本模块残差系数视频拼接方法矩阵

系统为您推荐了相关专利信息

基于大语言模型与目标检测融合的移动设备无线桌面充电系统

大语言模型充电系统移动设备步进电机驱动器桌面

基于血液生化文本引导的多模态骨肿瘤分类方法和系统

病理切片图像影像结构特征血液融合特征文本

多模态时空潮流数据储备池网络预测方法及设备

储备池网络节点多模态数据非暂态计算机可读存储介质

一种基于多模态融合的端侧语义导航方法及系统

语义地图环境感知数据导航方法多模态处理单元

一种支持多候选用户识别的毫米波波束对准方法

神经网络模型波束成形向量波束对准方法特征提取模块多模态信息

一种基于视觉语言知识引入的零样本多模态第一视角行为识别方法

站点导航

APP 下载