摘要
本发明涉及一种基于Transformer全局语义编码的眼动识别方法,涉及眼动识别领域。包括:根据不同的任务需求采集相应的眼动数据,构建眼动识别数据集;所述眼动数据集包括图像和观看图像对应的眼动数据;根据眼动数据中记录的注视点位置,对相关图像进行注视点处掩码处理,将掩码处理的图像和未被掩码图像作为Transformer模型的输入;对Transformer模型进行预训练;利用预训练的Transformer模型从每幅图像的所有注视点位置提取深层特征,基于深层特征预测基于图像的类别概率;整合基于图像的类别概率得到受试者的综合分类结果。有效解决了现有眼动识别方法对深层语义信息挖掘不足和无法捕捉全局依赖关系的问题。
技术关键词
注视点
眼动数据
计算机可执行指令
眼动识别方法
位置提取
图像块
可读存储介质
池化方法
计算机程序产品
注意力机制
计算机系统
图像分割
处理器
视觉
训练集
标记
系统为您推荐了相关专利信息
异构
判决方法
计数器
判决系统
计算机可执行指令
加密数据
追溯方法
时序
长短期记忆神经网络
身份
指数算法
筛选方法
置信度阈值
计算机可执行指令
模块