摘要
本发明涉及一种提升多模态模型细颗粒度判别能力的微调优化方法,属于人工智能领域。本发明通过对微调阶段的图像编码器通道引入ArcFace的角度边界辅助损失来优化图像和文本的联合表示学习。该方法包括预训练和微调两个阶段,预训练阶段使用在大规模图像‑文本对数据集上进行训练,微调阶段则基于特定领域数据集通过固定文本分支的全部参数和图像分支的多数参数,并在图像分支结合辅助损失函数调整模型参数,从而实现多模态模型对特定细颗粒场景判别能力的优化提升。
技术关键词
多模态
图像编码器
文本编码器
图像特征向量
网络结构
分支
图像检索系统
文本特征向量
超参数
数据
标注工具
阶段
场景
标签
因子
系统为您推荐了相关专利信息
图像特征向量
检索分析方法
文本特征向量
索引
字段
图像增强网络
图像增强方法
图像编码器
图像增强程序
训练集
异构网络数据
融合算法
跨网络
异构网络融合
监测网络状态
精准诊疗系统
图像特征提取
神经网络架构
关联规则挖掘算法
识别模块
区块链技术
运输设备
设备健康状态
诊断方法
故障类别