摘要
本申请公开了一种预训练图像特征提取模型的训练方法及相关装置。首先可以先获取包含多张样本图像的预训练数据集,这些样本图像分为两类:第一目标图像和第二目标图像。第一目标图像配备了基于SAM模型识别的区域识别框及对应的数值或符号形式的类别标签;第二目标图像则带有利用OCR模型标注的区域识别框及与视觉内容一致的文字描述。随后,采用ViT结构作为初始模型,并引入掩码机制,将模型提取的全局特征通过注意力加权公式转换为多个对应区域的局部特征。最后,通过结合所有局部特征与其对应的多维局部标签设计损失函数,对初始模型进行端到端参数优化,训练出能够同时捕捉细粒度视觉信息和文本信息的预训练图像特征提取模型。
技术关键词
图像特征提取模型
样本
文本识别
标签训练集
光学字符识别
文本信息提取
机制
特征提取单元
视觉
可读存储介质
终端设备
数据
对象检测
聚类
符号
训练装置
参数
度函数
系统为您推荐了相关专利信息
监督分类方法
样本
初始聚类中心
编码器训练
少量标注数据
缺陷识别方法
深度学习模型
缺陷预测
标注工具
图像增强
数据脱敏方法
脱敏策略
文件头信息
数据管理方法
句式结构
高斯混合模型
卫星故障诊断方法
卫星遥测数据
协方差矩阵
计算方法