摘要
本发明提供一种基于视觉语言大模型的可解释视频眼动预测方法,属于视频眼动预测技术领域。本发明在视觉语言大模型架构中添加一个归因引导的视觉解码器形成可解释视频眼动预测模型,并向语言解码器的词汇表中添加特殊token:<heatmap>,进行显著性图的预测和对显著区域的文本描述及背后认知原因的分析,以及通过监督微调方式对可解释视频眼动预测模型进行训练。本发明使得当前仅能输出文本的一类视觉语言大模型能同时输出像素级别的显著性预测结果,并通过文本指令构造和视觉解码器中的时空残差补全模块设计,考虑之前帧对于当前帧眼动注视点的影响;该方法为一种通用的网络架构方法,可以适用于当前主流的自回归架构的视觉语言大模型,具有广阔的应用前景。
技术关键词
解码器
文本
视觉特征
归因
预测模型训练
视频帧
分辨率
网络架构方法
皮尔逊相关系数
注视点
上采样
多层感知机
卷积模块
分词
指令
像素点
系统为您推荐了相关专利信息
实例分割模型
安全设备
编码器模块
编码特征
多尺度特征
智能生成系统
检测网络模型
语义
Attention机制
图片
图像亮度特征
光设备
图像块
空间特征提取
视觉特征提取