摘要
一种基于交互式小波变换和Transformer的遥感图像长字幕生成方法、系统、设备及介质,方法:采用语义分割模型对获取的遥感图像数据集进行语义分割,生成遥感图像中各类地物在不同方位的占比信息;并将其输入大语言模型中,根据具体要求生成文本,构建图像‑文本对;对图像‑文本对全面审查,剔除其中明显错误的图像‑文本对;将审查后的图像‑文本对整理保存,用作遥感图像‑文本对数据集;搭建遥感图像长字幕生成网络,包括:图像编码器、交互式小波变换模块和语言模型;训练交互式小波变换模块;训练遥感图像长字幕生成网络;性能评估;系统、设备及介质用于实现该方法;本发明具有提高数据集质量、增强模型理解与生成能力以及提升字幕生成准确性的优点。
技术关键词
字幕生成方法
文本
图像变换器
遥感图像数据
视觉特征
生成遥感图像
图像编码器
语义分割模型
模块
高维特征向量
大语言模型
生成字幕
地物类别
网络
可读存储介质
系统为您推荐了相关专利信息
融合情感特征
情感类别
文本特征向量
生成语音
编码器
情感分析技术
语言用户界面
情感特征
GUI系统
情感分析模型