摘要
一种基于强化学习与跨模态对齐的工业图像异常检测与分割方法,其具体步骤如下:S1,建立基于强化学习微调的多模态大模型;S2,将要查询的图像和提示文本输入到训练后的基于强化学习微调的多模态大模型内,输出推理文本和是否存在异常的答案,若答案是存在异常的则进入步骤S3;S3,将要查询的图像和步骤S2中得到的推理文本输入到跨模态图文对齐模块,生成分层的图像‑文本特征;S4,将要查询的图像输入给图像分割模块,同时将步骤S3中得到的图像‑文本特征通过全连接层映射为动态提示token,输入给分割解码器,生成像素级异常分割结果。本发明提升了异常检测的准确性和分割结果的精细化程度。
技术关键词
分割方法
文本
对齐模块
工业
图像分割
图像嵌入
解码器
答案
交叉注意力机制
图文
样本
层级
动态
图像编码器
策略
像素
解码结构
梯度方法