一种多尺度行车场景理解架构、方法及其系统

正文

推荐专利

申请号：CN202411711927

申请日期：2024-11-27

公开号：CN119646739A

公开日期：2025-03-18

类型：发明专利

摘要

本申请公开了一种多尺度行车场景理解架构、方法及其系统，该架构包括大语言模型、全局信息编码器和细节信息编码器。多尺度行车场景理解架构的输入数据包括整体文字描述、细节文字描述和行车场景视觉图像；大语言模型的输入为整体文字描述和细节文字描述，大语言模型的输出为全局文字特征和细节文字特征，全局信息编码器和细节信息编码器的输入均为行车场景视觉图像，全局信息编码器的输出为全局图像特征，细节信息编码器的输出为细节图像特征，多尺度行车场景理解架构通过全局文字特征、全局图像特征、细节文字特征和细节图像特征进行多尺度行车场景理解。本申请充分运用文字描述中丰富的高级语义信息，提高了场景理解的综合性、完整性和准确性。

技术关键词

信息编码器文字特征大语言模型多尺度场景理解方法图像理解系统三元组网络节点学习方法视觉特征语义自然语言样本跨模态文本工况

一种多尺度行车场景理解架构、方法及其系统

站点导航

APP 下载