摘要
本发明提供基于多模态多尺度特征融合的驾驶人注意力焦点预测方法和系统,包括:多模态数据采集与预处理;采用多分支卷积神经网络CNN,分别从多模态数据中提取多尺度特征,然后对提取的特征进行融合,输出多尺度融合特征图;通过自注意力机制捕获空间依赖关系,并嵌入位置编码保留几何信息;再通过ConVLSTM建模时序动态连续帧的融合特征堆叠为时序序列作为输入,通过粗粒度预测头,定位高风险区域;通过细粒度预测头,输出像素级注意力热力图,精确标注焦点区域;设计损失函数进行训练;利用训练好的整体网络模型实现驾驶人注意力焦点预测。本发明兼顾精度与效率,显著提升了驾驶人注意力焦点预测模型的泛化能力和实用性。
技术关键词
多尺度特征融合
焦点
融合特征
图像
嵌入位置编码
多模态数据采集
语义特征
高风险
注意力机制
网络
细粒度特征
直方图均衡化
热力图
稠密光流