摘要
本发明公开了一种基于大语言模型的自动驾驶三维场景数据预处理方法及系统,文本端基于大语言模型对每个类别标签生成用于对比学习的提问范式,激发大语言模型的事实性知识,将事实性知识作为答案空间,针对自动驾驶任务的类别标签生成详细的类别模板,并将类别模板缓存到离线文件中,在下游模型训练时进行加载,拓展类别模板,强化最核心的类别短语;视觉端通过稀疏采样和密集采样获取输入视频序列的关键帧,使用视频随机数据增强方法,在采样得到的关键帧上执行图像变换,增强模型对视觉表征的鲁棒性。本发明对文本模态的信息和视觉模态的信息分别进行处理,不同预处理方法的融合可以捕获不同的先验知识,利用它们互补的特性实现更优的性能。
技术关键词
三维场景数据
大语言模型
图像嵌入
模板
文本编码器
图像编码器
关键帧
视频
视觉
标签
预训练模型
三维语义分割
点云
数据模块
图像增强
累积分布函数
概率分布函数