摘要
本发明公开一种基于多模态大模型的目标检测优化方法,具体包括如下步骤:获取视频流数据;将视频流抽帧后的图像输入预设的目标检测模型,输出图像中包含的目标检测框坐标信息;若目标检测框的置信度大于预设值,则将当前图片、目标检测框坐标信息一同上传至多模态大模型;多模态大模型接收坐标信息、图像信息、文本提示词,判断并输出当前图像是否包含指定目标。
技术关键词
检测优化方法
多模态
编码特征
坐标
推送业务系统
视频流
位置编码器
图像编码器
标记特征
文本
傅立叶
图片
适配器
特征点
答案
数据
云端
解码
系统为您推荐了相关专利信息
深度控制系统
带钢头部
视觉摄像机
多模态数据融合
视觉检测模块
陪伴系统
云端控制系统
运动控制模块
机器人
居家
对象检测
特征提取模型
融合图像特征
图像检测方法
生成预测图像
关键帧
全息视频播放方法
神经网络参数
锚点
视频帧