一种基于文本信息的细粒度人眼视线估计方法

正文

推荐专利

申请号：CN202410758391

申请日期：2024-06-13

公开号：CN118736656B

公开日期：2025-12-16

类型：发明专利

摘要

本发明公开了基于文本信息的细粒度人眼视线估计方法，视线估计模型分为面部粗粒度特征提取和眼部细粒度特征提取两部分；面部粗粒度特征提取部分包括改进的CLIP模块和Transformer编码器，眼部细粒度特征提取部分包括特征提取网络、通道注意力模块和混合条纹池化块；面部图像输入到改进的CLIP模块中，提取反映大致视线方向的文本信息；反映大致视线方向的文本信息输入到Transformer编码器中，得到面部粗粒度特征；眼部细粒度特征提取部分包括特征提取网络、通道注意力模块和混合条纹池化块；左、右眼图像经过特征提取网络得到左、右眼特征，通道注意力模块赋予左、右眼特征通道注意力权重，进而得到眼部细粒度特征；混合条纹池化块用于眼部细粒度特征的降维处理；最后，将面部粗粒度特征与眼部细粒度特征进行融合，得到视线估计向量。充分发挥文本信息引导在上下文信息表征方面的优势，实现了两种粒度特征的有效融合，提高了估计精度。

技术关键词

人眼视线估计方法细粒度特征特征提取网络池化特征文本编码器注意力条纹语义图像面部特征支路通道人脸瓶颈模块元素

系统为您推荐了相关专利信息

学习者情绪引导下基于脑机耦合的智能体共情响应方法

多模态交互注意力视觉生成框架状态判别方法

一种图像描述方法及装置

文本编码器参数多模态大语言模型图像编码器

基于检索增强生成和知识图谱的大模型辅助诊断方法

辅助诊断方法医学知识图谱图文多模态跨模态

基于多模型分级协同的文本安全分类方法和装置

矩阵注意力多模型分类方法指数

一种汽车发动机智能启停控制系统及方法

编码向量多模态交互车道智能启停控制系统汽车发动机

一种基于文本信息的细粒度人眼视线估计方法

站点导航

APP 下载