摘要
本发明涉及计算机领域,公开了一种深度学习与图文大模型相结合的图诊方法、系统、介质及设备,其包括:通过对图诊任务描述与故障定义,构建基于解耦建模的图诊数据并训练相应的图诊算法,对图像进行初步图诊;将初步图诊结果输入通用图文大模型中生成回复,通过人工核验、数据清洗与增强,构建图诊指令数据集;于图诊指令数据集进行视觉指令微调,得到强化图诊情境和IQA方面能力的调优图文大模型,调优图文大模模型根据场景条件对初步图诊结果进行校正;基于校正后的图诊结果进行告警逻辑处理,对是否告警进行判决,并将告警信号传输至操作员。本发明提升了对依赖高层语义的干扰类别的识别效果,增强了图诊分析的可交互性和可解释性。
技术关键词
图文
指令
校正
铁路视频监控
数据标注方法
分布式训练
阶段
逻辑
图像编码器
多轮对话
判决模块
定义
程序
场景
视觉特征
交互性
系统为您推荐了相关专利信息
遥感分类方法
波形
构建卷积神经网络
卷积神经网络模型
可执行程序代码
服务质量需求
信号调度方法
语义
拥塞状态信息
能耗
环境感知信息
智能日历
活动推荐方法
标签
语义向量
智能预警方法
隧道
积水
深度预测模型
区域变化趋势