摘要
本发明属于计算机视觉和自然语言处理技术领域,公开了一种基于BERT和自监督学习的小样本城市场景图像分析方法。通过结合自监督学习充分挖掘无标注城市环境图像数据的潜在信息,同时利用跨模态语义增强机制,整合城市环境图像与描述文本的多模态特征,实现对小样本城市环境图像的精准诊断。本发明不仅提升了模型在小样本场景下的泛化能力,还显著改善了现有方法在复杂分析场景中的诊断效率和准确性,克服了现有技术中对数据依赖性强、对硬件资源要求高以及跨模态信息利用不足的缺陷。
技术关键词
图像分析方法
跨模态融合特征
监督学习框架
文本
场景
样本
注意力机制
图像特征提取
BERT模型
编码器
数据
整体空间结构
初始化解码器
双线性插值算法
拼图
语义
参数
系统为您推荐了相关专利信息
动态位置编码
人工智能系统
量子态
注意力
深度学习模型
体构建方法
文本
排序模型
智能医疗辅助
大语言模型
文本
异常检测方法
大语言模型
训练集
神经网络模型
分布式光伏集群
发电功率预测方法
分布式光伏发电
序列
图像
生成对抗学习
监督文本分类
无标签样本
编码器结构
数据