摘要
本发明公开了基于文本信息的细粒度人眼视线估计方法,视线估计模型分为面部粗粒度特征提取和眼部细粒度特征提取两部分;面部粗粒度特征提取部分包括改进的CLIP模块和Transformer编码器,眼部细粒度特征提取部分包括特征提取网络、通道注意力模块和混合条纹池化块;面部图像输入到改进的CLIP模块中,提取反映大致视线方向的文本信息;反映大致视线方向的文本信息输入到Transformer编码器中,得到面部粗粒度特征;眼部细粒度特征提取部分包括特征提取网络、通道注意力模块和混合条纹池化块;左、右眼图像经过特征提取网络得到左、右眼特征,通道注意力模块赋予左、右眼特征通道注意力权重,进而得到眼部细粒度特征;混合条纹池化块用于眼部细粒度特征的降维处理;最后,将面部粗粒度特征与眼部细粒度特征进行融合,得到视线估计向量。充分发挥文本信息引导在上下文信息表征方面的优势,实现了两种粒度特征的有效融合,提高了估计精度。
技术关键词
人眼视线估计方法
细粒度特征
特征提取网络
池化特征
文本编码器
注意力
条纹
语义
图像
面部特征
支路
通道
人脸
瓶颈
模块
元素
系统为您推荐了相关专利信息
编码向量
多模态交互
车道
智能启停控制系统
汽车发动机