一种搭载多模态模型的智慧城市感知图像处理系统及方法

AITNT
正文
推荐专利
一种搭载多模态模型的智慧城市感知图像处理系统及方法
申请号:CN202510512357
申请日期:2025-04-23
公开号:CN120673218A
公开日期:2025-09-19
类型:发明专利
摘要
本发明公开了一种搭载多模态模型的智慧城市感知图像处理系统及方法,包括原始视觉编码结构、增强视觉编码结构、专有视觉编码结构、视觉群融合与压缩模块、多层感知MLPs结构和大语言模型,对原始推理图片进行多种视觉编码后输出特征维度一致的原有视觉编码特征、增强视觉编码和专有视觉编码特征;将各视觉编码特征进行融合和压缩后将多层度图像特征映射到语言语义空间得到输入图像特征,将输入图像特征和文本特征进行拼接,生成语言响应输出。针对城市管理场景提供了专有视觉特征提取模块,可以提高系统对特定场景的感知能力,从而提高对城市感知信息的准确度。
技术关键词
图像处理系统 特征提取模块 视觉特征编码 网络结构 多模态 图片 决策 图像处理方法 视觉特征提取 场景 文本 多层感知器 图像特征编码 图像编码 多尺度
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号