摘要
本发明公开了一种多模态人员穿戴状态自适应检测方法及装置,方法包括步骤:获取目标对象的图像;从数据库中调取预先存储的参考对象图像和对应的文字描述;使用多模态CLIP模型对所述目标对象的图像、参考对象图像和对应的文字描述进行处理,得到目标图像特征向量、参考图像特征向量、参考文字向量;分别计算目标图像特征向量与文字向量之间的相似度、参考图像特征向量与文字向量之间的相似度;比较两种相似度的大小,根据比较结果判断是否处于预定的穿戴状态。本发明结合了图像和文本的多模态信息,基于微调后的CLIP模型进行图像和文字数据处理,提升了识别任务的理解能力和准确性,具有较高的泛化能力和部署效率。
技术关键词
图像特征向量
对象
三元组损失函数
多模态
图像获取模块
更新模型参数
文本
样本
计算方法
梯度下降法
相机拍照
神经网络模型
动态
数据
机制
照片
输出模块
锚点
系统为您推荐了相关专利信息
伺服控制方法
快速门
切换控制策略
传感器冗余
伺服控制系统
画面
多模态
图像分割模型
软件测试方法
待测软件