摘要
本发明公开了一种使用多模态模型进行齿轮图像精准识别的方法及系统,该方法通过融合ResNet和Llama2的多模态Transformer模型实现齿轮图像识别和;所述方法包含以下步骤:S100:数据采集和预处理;从各类开源的零件图库和/或零件标准文件中收集图像数据和文本数据,S200:动态样本对选择策略;S300:建立多模态模型;所述多模态模型包含图像处理分支和文本处理分支;图像处理分支使用ResNet模型进行图像嵌入和模型训练;文本处理分支使用LlaMa2模型获取文本描述的嵌入和深层文本学习;S400:高级融合策略;S500:模型训练和评估;本发明不仅优化了齿轮图像的识别过程,还通过集成到工业自动化系统中,提高了整体的工程效率和数据安全性。
技术关键词
文本
多模态
样本
齿轮
分支
图像处理
图像特征向量
数据
图像嵌入
深层网络结构
工业自动化系统
融合策略
生成图像特征
注意力机制
零件
构建知识图谱
三元组
系统为您推荐了相关专利信息
高维特征向量
传动系统
预测类别
故障诊断方法
样本
高风险
神经网络分类器
样本
实时数据
融合多源数据
三维重建模型
双块式轨枕
裂缝检测方法
超声波
特征金字塔网络