摘要
本申请公开了一种基于专家混合模型的遥感图像的视觉语言处理方法及系统,涉及数据处理、人工智能技术,包括:获取遥感图像数据;利用结合专家混合框架的视觉语言模型RS‑MoE,基于所述遥感图像数据生成描述性文本,所述RS‑MoE包括图像编码器(Image Encoder)、VLM编码器(VLM Encoder)和专家混合模块(MoE Block),其中MoE Block包括动态生成任务提示的说明路由器(Instruction Router)和多个大语言模型(LLMs)。基于本申请实施例的视觉语言模型实现对所输入的遥感图像提供细致且符合上下文的描述,全面反映遥感场景。
技术关键词
图像编码器
遥感图像数据
视觉特征
混合模块
大语言模型
路由器
注意力
感知特征
人工智能技术
文本
动态
存储器
处理器
框架
场景
阶段
网络
系统为您推荐了相关专利信息
基站能力信息
信息处理方法
大语言模型
交通监控
文本
甘蔗黑穗病
影像
光谱特征提取
视觉特征提取
无人机
大语言模型
审计日志
机器可读程序
集成访问控制
时间滑动窗口