摘要
本发明提出一种基于多模态大模型的路侧事件理解方法,该方法包括获取实时交通场景图像;基于实时交通场景图像和系统指令利用多模态大模型获得关键区域;基于关键区域和实时交通场景图像利用视觉识别模型生成视觉提示信息,视觉识别模型包括开放世界目标检测模块和地图拓扑结构理解模块;基于实时交通场景图像、系统指令、视觉提示信息利用多模态大模型生成路侧事件信息。利用本发明的方法能够提升路侧事件理解的准确性。
技术关键词
交通场景图像
多模态
计算机执行指令
视觉
图像编码器
车道
图像特征提取
理解系统
文本编码器
多层注意力机制
地图
拓扑结构信息
模块
图像获取装置
采样器
可读存储介质
元素
系统为您推荐了相关专利信息
优惠券推送方法
多端口
多模态特征
忆阻器阵列
策略
雷达探测器
梯度下降算法
机器人三维视觉
图像
机器人控制系统
医用检测装置
分布式传感器网络
云端服务器
动态权重分配
数据采集器
精度优化方法
五轴运动机构
坐标系
标定相机
数据处理模块