一种基于视觉语言大模型的可解释视频眼动预测方法

AITNT
正文
推荐专利
一种基于视觉语言大模型的可解释视频眼动预测方法
申请号:CN202510462529
申请日期:2025-04-14
公开号:CN120411980A
公开日期:2025-08-01
类型:发明专利
摘要
本发明提供一种基于视觉语言大模型的可解释视频眼动预测方法,属于视频眼动预测技术领域。本发明在视觉语言大模型架构中添加一个归因引导的视觉解码器形成可解释视频眼动预测模型,并向语言解码器的词汇表中添加特殊token:<heatmap>,进行显著性图的预测和对显著区域的文本描述及背后认知原因的分析,以及通过监督微调方式对可解释视频眼动预测模型进行训练。本发明使得当前仅能输出文本的一类视觉语言大模型能同时输出像素级别的显著性预测结果,并通过文本指令构造和视觉解码器中的时空残差补全模块设计,考虑之前帧对于当前帧眼动注视点的影响;该方法为一种通用的网络架构方法,可以适用于当前主流的自回归架构的视觉语言大模型,具有广阔的应用前景。
技术关键词
解码器 文本 视觉特征 归因 预测模型训练 视频帧 分辨率 网络架构方法 皮尔逊相关系数 注视点 上采样 多层感知机 卷积模块 分词 指令 像素点
系统为您推荐了相关专利信息
1
一种基于自举式生成的图表反事实问答构建方法及系统
图表 大语言模型 提示方法 答案 自然语言文本
2
安全设备的侦测方法及系统
实例分割模型 安全设备 编码器模块 编码特征 多尺度特征
3
视频生成方法、装置、电子设备、存储介质及程序产品
视频生成模型 噪声 视频生成方法 透明度 上采样
4
一种基于语义识别提取的投保单智能生成系统
智能生成系统 检测网络模型 语义 Attention机制 图片
5
一种图像亮度调整方法、装置、设备、介质及产品
图像亮度特征 光设备 图像块 空间特征提取 视觉特征提取
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号