摘要
本发明公布了一种基于意图指令交互驱动的机器视觉方法。该方法使用意图文本指令数据集,训练文本编码器,使文本编码器能够将文本指令编码为视觉模型能够理解的特征;之后,使用带标签的图像数据集Mg和交叉熵损失预训练视觉模型E,使其能输出图像样本的概率分布Pg;最后,构造图像‑文本组合数据集O,使用区域‑文本比对损失和数据集O训练图像‑文本聚合模块,该模块用于接受意图解析模型传来的文本向量特征参数C,选用视觉模型Ea执行视觉任务。本发明引入了意图指令交互的方式,且使视觉模型在执行任务时专注于某类物体,而不是同时检测所有训练类别,相对于传统视觉算法的推理速度更快,占用资源更少,同时能保证视觉算法的检测精度。
技术关键词
意图指令
机器视觉方法
数据
文本编码器
视觉算法
图像编码
样本
带标签
精度
模块
语句
物体
标记
系统为您推荐了相关专利信息
设备数据处理方法
数据采集模板
设备运行数据
非易失性存储介质
通信基站
深度残差网络模型
配电网故障恢复
重构方法
历史运行数据
配电网拓扑结构
吸尘器
功率分配算法
服务器
环境监测数据
控制终端