一种搭载多模态模型的智慧城市感知图像处理系统及方法

正文

推荐专利

申请号：CN202510512357

申请日期：2025-04-23

公开号：CN120673218A

公开日期：2025-09-19

类型：发明专利

摘要

本发明公开了一种搭载多模态模型的智慧城市感知图像处理系统及方法，包括原始视觉编码结构、增强视觉编码结构、专有视觉编码结构、视觉群融合与压缩模块、多层感知MLPs结构和大语言模型，对原始推理图片进行多种视觉编码后输出特征维度一致的原有视觉编码特征、增强视觉编码和专有视觉编码特征；将各视觉编码特征进行融合和压缩后将多层度图像特征映射到语言语义空间得到输入图像特征，将输入图像特征和文本特征进行拼接，生成语言响应输出。针对城市管理场景提供了专有视觉特征提取模块，可以提高系统对特定场景的感知能力，从而提高对城市感知信息的准确度。

技术关键词

图像处理系统特征提取模块视觉特征编码网络结构多模态图片决策图像处理方法视觉特征提取场景文本多层感知器图像特征编码图像编码多尺度

一种搭载多模态模型的智慧城市感知图像处理系统及方法

站点导航

APP 下载