摘要
本申请公开了一种多尺度行车场景理解架构、方法及其系统,该架构包括大语言模型、全局信息编码器和细节信息编码器。多尺度行车场景理解架构的输入数据包括整体文字描述、细节文字描述和行车场景视觉图像;大语言模型的输入为整体文字描述和细节文字描述,大语言模型的输出为全局文字特征和细节文字特征,全局信息编码器和细节信息编码器的输入均为行车场景视觉图像,全局信息编码器的输出为全局图像特征,细节信息编码器的输出为细节图像特征,多尺度行车场景理解架构通过全局文字特征、全局图像特征、细节文字特征和细节图像特征进行多尺度行车场景理解。本申请充分运用文字描述中丰富的高级语义信息,提高了场景理解的综合性、完整性和准确性。
技术关键词
信息编码器
文字特征
大语言模型
多尺度
场景理解方法
图像
理解系统
三元组
网络节点
学习方法
视觉特征
语义
自然语言
样本
跨模态
文本
工况