一种基于视觉语言知识引入的零样本多模态第一视角行为识别方法

AITNT
正文
推荐专利
一种基于视觉语言知识引入的零样本多模态第一视角行为识别方法
申请号:CN202411024976
申请日期:2024-07-29
公开号:CN119203019B
公开日期:2025-10-17
类型:发明专利
摘要
该发明公开了一种基于视觉语言知识引入的零样本多模态第一视角行为识别方法,属于多模态行为识别领域。本发明首先将视觉模态输入预训练的CLIP视觉编码器提取视觉特征,将经过STFT变换的加速度计模态、陀螺仪模态频谱图提取对应的特征,文本通过预训练的CLIP文本编码器提取到文本特征。然后将视觉特征传入到适配器模块,将零样本知识与新的自适应特征知识进行动态结合,得到最终的视觉特征。加速度计模态、陀螺仪模态通过惯性传感器融合模块得到最终的惯性传感器特征。最后将文本、视觉、惯性传感器特征一同输入多模态融合模块,充分考虑不同模态间对齐的问题,有效地提升模态融合的效果。该方法在零样本多模态第一视角行为识别任务上表现令人满意。
技术关键词
视觉特征 多模态 惯性传感器数据 识别方法 适配器 可穿戴智能眼镜 视角 文本编码器 陀螺仪 样本 模块 残差系数 视频 拼接方法 矩阵
系统为您推荐了相关专利信息
1
基于大语言模型与目标检测融合的移动设备无线桌面充电系统
大语言模型 充电系统 移动设备 步进电机驱动器 桌面
2
基于血液生化文本引导的多模态骨肿瘤分类方法和系统
病理切片图像 影像结构特征 血液 融合特征 文本
3
多模态时空潮流数据储备池网络预测方法及设备
储备池网络 节点 多模态 数据 非暂态计算机可读存储介质
4
一种基于多模态融合的端侧语义导航方法及系统
语义地图 环境感知数据 导航方法 多模态 处理单元
5
一种支持多候选用户识别的毫米波波束对准方法
神经网络模型 波束成形向量 波束对准方法 特征提取模块 多模态信息
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号