摘要
本发明公开了一种基于多模态模型的交互式图像标注方法及系统,包括:构建目标检测模型;获取待检测图像和提示词文本,对提示词文本进行分词,得到的若干词元作为不同的待检测目标类别,对于每个待检测目标类别,提取负向提示词中存在的相应负向类别,生成词元索引表;设置置信度阈值,将待检测图像、提示词文本和词元索引表输入所述目标检测模型,目标检测模型生成中间检测;设置类间非极大值抑制的IoU阈值,结合负向提示词对中间检测进行过滤,生成最终检测结果。本发明可以在不对特定类别进行训练的前提下,获得准确的检测结果,并且能够通过负向提示词和描述提示词交互式地减少误检,自动为图像生成准确的标注。
技术关键词
交互式图像标注
多模态
文本
置信度阈值
索引表
深度神经网络
图像标注系统
样本
跨模态
分词
预测类别
数据
模块
多尺度
因子
坐标
参数
解码
系统为您推荐了相关专利信息
智能预警系统
烧伤病房
环境监测数据
长短期记忆网络
大数据
图像分割网络
文本编码器
图像编码器
分割方法
计算机可读储存介质
恢复监控
联动系统
睡眠监测设备
助眠设备
分析模块
颗粒监测系统
动态反馈控制
层流稳定装置
超纯水
多模态数据融合