摘要
本发明涉及一种基于混合Transformer的驾驶员视线映射方法,涉及计算机视觉、图像处理、人机交互等技术领域。驾驶员的视线与驾驶员注意力和意图密切相关,为了有效估计驾驶员在驾驶过程中对道路环境的关注点,本发明提出多尺度交叉注意力网络(Multi‑Scale Cross‑Attention Network,MSCA‑Net)。该网络通过Transformer和Res net并行地提取驾驶员面部特征和眼睛特征,并在不同尺度上引入交叉注意力,有效解决了因面部图像特征冗余而导致视线映射性能下降的问题。为了有效融合驾驶员眼睛特征,提出了双眼特征融合模块(Binocular Feature Fusion Module,BFFM),该模块通过通道注意力和空间注意力的交互来融合双眼特征,显著提升了MSCA‑Net的视线映射精度。该网络能够有效估计驾驶员视线,可广泛应用在驾驶员注意力分析和人车交互等领域。
技术关键词
注意力
全局平均池化
眼睛特征
特征提取器
驾驶员人脸
映射方法
驾驶员面部特征
面部图像特征
出面部图像
图像增强模型
编码器
拍摄驾驶员
标记
融合特征
注视点
更新网络参数
左右眼图像
指标
通道
系统为您推荐了相关专利信息
动态知识图谱
多源异构数据处理
网络流量数据
网络攻击路径
风险
遥感图像数据
检测网络模型
视觉特征
特征金字塔
特征提取能力
拓扑结构特征
语义注意力
图像定位方法
交叉注意力机制
动态邻接矩阵
辅助诊断方法
面瘫患者
图像修复模型
图像块
评估面瘫