摘要
本发明属于计算机视觉与自然语言处理的交叉技术领域,具体而言涉及一种面向高速公路的多模态事件理解方法和系统,方法包括:获取数据集和车辆在高速公路行驶过程中形成实时图像,数据集包括特征图像和特征文本描述语义信息;将图像进行分割,增强分割后图像子块的提示信息;对齐局部图像子块和的文本描述语义信息;基于处理后的数据集相关数据预训练PDVC模型,同时调整调整模型参数以降低学习率;处理后的实时图像数据输入至调整模型参数后的PDVC中,输出事件描述文本。
技术关键词
面向高速公路
文本
语义
实时图像
数据
识别特征
图像编码器
矩阵
多模态信息
生成事件
图像编辑器
参数
理解系统
模型训练模块
交通
视频
计算机视觉