摘要
本发明公开了一种基于先验知识的大批量图像数据快速判读方法及系统,属于计算机视觉和生成式人工智能领域,包括:S1,构建任务场景数据集,并使用数据集训练CNN‑DE算法,得到检测目标类型和目标位置的模型;S2,使用步骤S1的训练集构建图文数据集,并使用该图文数据集训练微调LVLM模型;S3,基于步骤S1的数据集,结合图像并使用文本为图像打标签构建多模态对齐的数据集,使用该数据集微调CLIP,得到能够基于内容检索的辅助判读模型;S4,将三个模型整合成一个系统,调整系统的输入输出,构建人机交互界面,对接数据库。本发明提供了基于先验知识的多模型、多模态协同图像自动目标检测方案,具有工业应用价值和前景。
技术关键词
判读方法
人机交互界面
DE算法
图像
数据
图文
训练集
打标签
多模态协同
计算机设备
判读系统
场景
指标
标注工具
计算机视觉
模块
文本
框架
超参数
系统为您推荐了相关专利信息
煤矿设备
时序特征
健康状态评估方法
多模态数据采集
状态评估装置
废水处理控制系统
动态预测模型
智能优化算法
水质
设备运行状态
资源智能调度方法
多阶段
优化调度算法
多智能体强化学习
历史数据回归分析
大文件上传方法
分片
双网络
多路复用技术
连续动作空间
车辆位置识别方法
激光点云数据
预训练模型
车辆位置识别系统
关键帧