摘要
本发明公开了一种基于多模态大模型的端到端交通道路状态感知方法,包括:采集交通视频数据集和交通文本数据集;提取至少部分交通视频数据的每帧图像并特征提取得到交通特征;基于交通要素集对每帧图像进行标注;对交通文本数据集进行清洗、分词和标记化;统计第一比值和第二比值,从而计算联合概率;基于联合概率判断交通要素和交通特征是否关联;基于关联的交通要素和交通特征,利用滑动窗口对清洗后的交通文本数据集进行提取,得到训练样本;对大语言模型进行预训练,得到预训练大语言模型;对感知大模型进行训练;将待输入视频图像输入至训练后的感知大模型中得到场景理解文本。本发明同时实现精准目标检测和路网状态的文本描述。
技术关键词
交通视频数据
状态感知方法
交通道路
交通特征
大语言模型
多模态
文本
图像编码器
滑动窗口
表达式
词语
分词
网络结构
场景
优化器
批量
系统为您推荐了相关专利信息
大语言模型
情感分类模型
样本生成方法
训练样本数据
文本
语义向量
场景
推荐方法
自然语言理解
可读存储介质