一种基于视觉语言大模型的可解释视频眼动预测方法

正文

推荐专利

申请号：CN202510462529

申请日期：2025-04-14

公开号：CN120411980A

公开日期：2025-08-01

类型：发明专利

摘要

本发明提供一种基于视觉语言大模型的可解释视频眼动预测方法，属于视频眼动预测技术领域。本发明在视觉语言大模型架构中添加一个归因引导的视觉解码器形成可解释视频眼动预测模型，并向语言解码器的词汇表中添加特殊token：<heatmap>，进行显著性图的预测和对显著区域的文本描述及背后认知原因的分析，以及通过监督微调方式对可解释视频眼动预测模型进行训练。本发明使得当前仅能输出文本的一类视觉语言大模型能同时输出像素级别的显著性预测结果，并通过文本指令构造和视觉解码器中的时空残差补全模块设计，考虑之前帧对于当前帧眼动注视点的影响；该方法为一种通用的网络架构方法，可以适用于当前主流的自回归架构的视觉语言大模型，具有广阔的应用前景。

技术关键词

解码器文本视觉特征归因预测模型训练视频帧分辨率网络架构方法皮尔逊相关系数注视点上采样多层感知机卷积模块分词指令像素点

系统为您推荐了相关专利信息

一种基于自举式生成的图表反事实问答构建方法及系统

图表大语言模型提示方法答案自然语言文本

安全设备的侦测方法及系统

实例分割模型安全设备编码器模块编码特征多尺度特征

视频生成方法、装置、电子设备、存储介质及程序产品

视频生成模型噪声视频生成方法透明度上采样

一种基于语义识别提取的投保单智能生成系统

智能生成系统检测网络模型语义 Attention机制图片

一种图像亮度调整方法、装置、设备、介质及产品

图像亮度特征光设备图像块空间特征提取视觉特征提取

一种基于视觉语言大模型的可解释视频眼动预测方法

站点导航

APP 下载