摘要
面向复杂电力视觉场景的多模态模型风格嵌入方法及系统,属于图像处理技术领域,解决如何增强视觉语言预训练模型的风格表达能力的问题;本发明利用扩散模型辅助多模态模型建立连续空间的领域级风格提示词,将扩散模型的知识迁移到多模态模型中,在面向复杂电力视觉场景时具有更丰富的风格表达和建模能力,可以描述更加细致的风格信息;本发明通过建立实例级风格特征提取模型,将实例级风格特征提取模型与领域级风格信息库的风格信息对齐,推理过程中针对单张图像输入,能够生成高效精确的风格提示词,适用于电力真实场景中的缺陷识别、目标检测等任务,有效增强下游任务中的视觉文本预训练模型的风格泛化性能。
技术关键词
风格
特征提取模型
嵌入方法
文本
图像
语义
深度学习框架
场景
视觉特征
电力
跨模态
构建训练集
预训练模型
分支
逻辑
数据
模块
巡检机器人
系统为您推荐了相关专利信息
光伏电站光伏板
自动化运维系统
红外相机拍摄
支路
无人机故障
图像去噪方法
正则化参数
优化算法技术
变量
二维图像矩阵