摘要
本发明提供了一种图文对比学习的多模态人脸活体检测方法、介质及设备;方法是:采用CLIP网络架构来实现人脸活体检测;CLIP网络架构包括文本编码器、图像编码器和多模态信息融合模块;将真假脸标签扩展出文本提示集,并送入文本编码器获得文本特征;将人脸图像三个模态分别输入到图像编码器提取图像特征;将三个模态图像特征分别与文本特征进行计算余弦相似度得到分类概率;若任一个模态分类概率置信度高,则直接得到检测结果;若三个模态置信度均不高,将三个模态图像特征融合后与文本特征进行计算余弦相似度,得到检测结果。该方法充分利用CLIP预训练模型蕴含跨模态知识,提取人脸图像和文本提示的基础特征,提高了模型的泛化能力。
技术关键词
人脸活体检测方法
图像编码器
网络架构
文本编码器
融合图像特征
人脸图像数据
图文
交叉注意力机制
图像块
多模态信息融合
拼接方式
执行存储器存储
图像全局特征
词嵌入方法
系统为您推荐了相关专利信息
编码向量
问答数据处理方法
上下文特征
语义
内核
跨度
实体识别方法
知识蒸馏技术
GRU模型
sigmoid函数
室内导航方法
语音识别单元
多模态
定位单元
场景