一种基于文本信息的细粒度人眼视线估计方法

AITNT
正文
推荐专利
一种基于文本信息的细粒度人眼视线估计方法
申请号:CN202410758391
申请日期:2024-06-13
公开号:CN118736656B
公开日期:2025-12-16
类型:发明专利
摘要
本发明公开了基于文本信息的细粒度人眼视线估计方法,视线估计模型分为面部粗粒度特征提取和眼部细粒度特征提取两部分;面部粗粒度特征提取部分包括改进的CLIP模块和Transformer编码器,眼部细粒度特征提取部分包括特征提取网络、通道注意力模块和混合条纹池化块;面部图像输入到改进的CLIP模块中,提取反映大致视线方向的文本信息;反映大致视线方向的文本信息输入到Transformer编码器中,得到面部粗粒度特征;眼部细粒度特征提取部分包括特征提取网络、通道注意力模块和混合条纹池化块;左、右眼图像经过特征提取网络得到左、右眼特征,通道注意力模块赋予左、右眼特征通道注意力权重,进而得到眼部细粒度特征;混合条纹池化块用于眼部细粒度特征的降维处理;最后,将面部粗粒度特征与眼部细粒度特征进行融合,得到视线估计向量。充分发挥文本信息引导在上下文信息表征方面的优势,实现了两种粒度特征的有效融合,提高了估计精度。
技术关键词
人眼视线估计方法 细粒度特征 特征提取网络 池化特征 文本编码器 注意力 条纹 语义 图像 面部特征 支路 通道 人脸 瓶颈 模块 元素
系统为您推荐了相关专利信息
1
学习者情绪引导下基于脑机耦合的智能体共情响应方法
多模态 交互注意力 视觉 生成框架 状态判别方法
2
一种图像描述方法及装置
文本编码器 参数 多模态 大语言模型 图像编码器
3
基于检索增强生成和知识图谱的大模型辅助诊断方法
辅助诊断方法 医学知识图谱 图文 多模态 跨模态
4
基于多模型分级协同的文本安全分类方法和装置
矩阵 注意力 多模型 分类方法 指数
5
一种汽车发动机智能启停控制系统及方法
编码向量 多模态交互 车道 智能启停控制系统 汽车发动机
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号