摘要
本申请公开了一种目标定位方法及其相关设备,该方法包括:获取待处理图像以及第一文本提示信息,第一文本提示信息是需要从待处理图像中检索的目标的描述信息;基于待处理图像和第一文本提示信息,通过预设的多模态大模型对待处理图像中目标的边界框进行定位,得到定位结果;其中,预设多模态大模型是基于预设边界框定位数据集,对基础多模态大模型进行训练得到的,预设边界框定位数据集中的每条数据包括第一数据集以及与第一数据集对应的边界框标签,边界框标签与第一数据集是N对1的关系,N大于等于0,第一数据集包括第一样本图像和对需要检索的目标进行描述的第二文本提示信息;本申请实现提升任意复杂描述的目标定位的准确度。
技术关键词
数据
样本
图像
文本
标签
三元组
多模态
定位方法
代表
置信度阈值
基础
计算机程序产品
关系
处理器
定位设备
定位模块
可读存储介质
存储器
系统为您推荐了相关专利信息
训练样本数据
肿瘤
筛查模型
数据处理系统
筛查方法
模拟图像生成方法
运动
坐标系
参数
接口转换模块