一种基于交互式小波变换和Transformer的遥感图像长字幕生成方法、系统、设备及介质

AITNT
正文
推荐专利
一种基于交互式小波变换和Transformer的遥感图像长字幕生成方法、系统、设备及介质
申请号:CN202510225548
申请日期:2025-02-27
公开号:CN120111162A
公开日期:2025-06-06
类型:发明专利
摘要
一种基于交互式小波变换和Transformer的遥感图像长字幕生成方法、系统、设备及介质,方法:采用语义分割模型对获取的遥感图像数据集进行语义分割,生成遥感图像中各类地物在不同方位的占比信息;并将其输入大语言模型中,根据具体要求生成文本,构建图像‑文本对;对图像‑文本对全面审查,剔除其中明显错误的图像‑文本对;将审查后的图像‑文本对整理保存,用作遥感图像‑文本对数据集;搭建遥感图像长字幕生成网络,包括:图像编码器、交互式小波变换模块和语言模型;训练交互式小波变换模块;训练遥感图像长字幕生成网络;性能评估;系统、设备及介质用于实现该方法;本发明具有提高数据集质量、增强模型理解与生成能力以及提升字幕生成准确性的优点。
技术关键词
字幕生成方法 文本 图像变换器 遥感图像数据 视觉特征 生成遥感图像 图像编码器 语义分割模型 模块 高维特征向量 大语言模型 生成字幕 地物类别 网络 可读存储介质
系统为您推荐了相关专利信息
1
一种领域建模大模型微调方法与系统
微调方法 指令 模式 实体 文本
2
一种情感可控的联合编码VITS语音合成方法及相关装置
融合情感特征 情感类别 文本特征向量 生成语音 编码器
3
一种电子病历解析方法、系统、设备及介质
电子病历 解析方法 文本 大语言模型 生成标签
4
一种基于情感模块的LUI及GUI方法及系统
情感分析技术 语言用户界面 情感特征 GUI系统 情感分析模型
5
数据搜索方法、装置、产品和设备
意图识别模型 样本 标签 解码器 数据搜索方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号