摘要
本发明公开了一种搭载多模态模型的智慧城市感知图像处理系统及方法,包括原始视觉编码结构、增强视觉编码结构、专有视觉编码结构、视觉群融合与压缩模块、多层感知MLPs结构和大语言模型,对原始推理图片进行多种视觉编码后输出特征维度一致的原有视觉编码特征、增强视觉编码和专有视觉编码特征;将各视觉编码特征进行融合和压缩后将多层度图像特征映射到语言语义空间得到输入图像特征,将输入图像特征和文本特征进行拼接,生成语言响应输出。针对城市管理场景提供了专有视觉特征提取模块,可以提高系统对特定场景的感知能力,从而提高对城市感知信息的准确度。
技术关键词
图像处理系统
特征提取模块
视觉特征编码
网络结构
多模态
图片
决策
图像处理方法
视觉特征提取
场景
文本
多层感知器
图像特征编码
图像编码
多尺度