摘要
本申请涉及图像检测技术领域,公开了一种目标检测方法、装置、设备、存储介质及计算机程序产品,该方法包括:响应于目标检测请求,调用预设多模态大语言模型,其中,预设多模态大语言模型中设置有特征融合模块,通过特征融合模块将预设查询特征与待检测图像的视觉特征进行跨模态融合,获得融合后查询特征,其中,预设查询特征为可学习参数的向量矩阵,基于融合后查询特征对待检测图像进行目标检测,获得待检测图像的目标检测结果;由于本申请通过在预设多模态大语言模型中设置特征融合模块,实现了查询特征与待检测图像的视觉特征的跨模态融合,从而实现了通过多模态大语言模型直接对图像进行目标检测,进而降低了检测流程的复杂性。
技术关键词
查询特征
大语言模型
多模态
计算机程序产品
视觉特征
跨模态
图像检测技术
对象
模块
检测设备
处理器
矩阵
文本
存储器
参数
样本
系统为您推荐了相关专利信息
路面附着系数
环境感知数据
车辆运行数据
横摆角速度
轨迹
模式搜索方法
等效电路模型
粒子
参数辨识方法
锂电池
评论分析方法
语义向量
关键词
计算机可读指令
聚类
英语学习方法
情感特征
动态
虚拟仿真技术
多模态
预训练模型
生成方法
大语言模型
文本生成技术
词嵌入模型