摘要
本申请公开了一种基于多模态大语言模型的人脸活体检测方法、装置、设备及存储介质,涉及图像检测技术领域,包括:将待识别人脸图像、目标辅助模态图像以及用户指令输入训练好的多模态大语言模型中,得到针对所述用户指令的多任务输出结果,其中,所述多模态大语言模型包括视觉令牌掩码器,所述多任务输出结果包括粗粒度分类结果、细粒度分类结果、原因推理结果以及攻击定位结果中的至少一种。本申请能够提高人脸活体检测的安全性以及可靠性。
技术关键词
大语言模型
识别人脸图像
人脸活体检测方法
视觉特征
多模态
可见光图像
多任务
细粒度分类
令牌
文本
人脸活体检测设备
图像块
人脸活体检测装置
梯度直方图
数据
指令
系统为您推荐了相关专利信息
语义协同
特征值
语义注意力
多头注意力机制
多模态
动态跟踪装置
导光管
虚拟现实眼镜
压力传感器阵列
动态补偿模块
设备参数信息
语言模型优化方法
大语言模型
资源
集群
语义特征
视觉感知特征
全景图
采样模块
局部视觉特征