一种面向高速公路的多模态事件理解方法和系统

正文

推荐专利

申请号：CN202510253859

申请日期：2025-03-05

公开号：CN120198835A

公开日期：2025-06-24

类型：发明专利

摘要

本发明属于计算机视觉与自然语言处理的交叉技术领域，具体而言涉及一种面向高速公路的多模态事件理解方法和系统，方法包括：获取数据集和车辆在高速公路行驶过程中形成实时图像，数据集包括特征图像和特征文本描述语义信息；将图像进行分割，增强分割后图像子块的提示信息；对齐局部图像子块和的文本描述语义信息；基于处理后的数据集相关数据预训练PDVC模型，同时调整调整模型参数以降低学习率；处理后的实时图像数据输入至调整模型参数后的PDVC中，输出事件描述文本。

技术关键词

面向高速公路文本语义实时图像数据识别特征图像编码器矩阵多模态信息生成事件图像编辑器参数理解系统模型训练模块交通视频计算机视觉

一种面向高速公路的多模态事件理解方法和系统

站点导航

APP 下载