一种基于大语言模型的自动驾驶三维场景数据预处理方法及系统

正文

推荐专利

申请号：CN202410746078

申请日期：2024-06-11

公开号：CN118781267B

公开日期：2026-01-02

类型：发明专利

摘要

本发明公开了一种基于大语言模型的自动驾驶三维场景数据预处理方法及系统，文本端基于大语言模型对每个类别标签生成用于对比学习的提问范式，激发大语言模型的事实性知识，将事实性知识作为答案空间，针对自动驾驶任务的类别标签生成详细的类别模板，并将类别模板缓存到离线文件中，在下游模型训练时进行加载，拓展类别模板，强化最核心的类别短语；视觉端通过稀疏采样和密集采样获取输入视频序列的关键帧，使用视频随机数据增强方法，在采样得到的关键帧上执行图像变换，增强模型对视觉表征的鲁棒性。本发明对文本模态的信息和视觉模态的信息分别进行处理，不同预处理方法的融合可以捕获不同的先验知识，利用它们互补的特性实现更优的性能。

技术关键词

三维场景数据大语言模型图像嵌入模板文本编码器图像编码器关键帧视频视觉标签预训练模型三维语义分割点云数据模块图像增强累积分布函数概率分布函数

一种基于大语言模型的自动驾驶三维场景数据预处理方法及系统

站点导航

APP 下载