摘要
本发明公开了基于大语言模型的工业视觉多下游任务处理方法,包括以下步骤:获取工业查询图像和提问文本,将所述工业查询图像分割为多个图像块,将图像块送入图像特征编码器提取图像特征,并将图像特征转换为查询图像令牌;识别所述提问文本得到视觉任务类型,根据系统设定、所述提问文本、所述视觉任务类型和所述查询图像令牌,生成大语言模型的输入文本;将所述输入文本所述大语言模型,所述大语言模型根据指定的任务类型、输入的系统设定和任务需求,处理不同的视觉任务。本发明能够高效且准确地处理工业视觉场景中的多种下游任务,并在工业视觉多下游任务上提高大模型的适应性和性能。
技术关键词
大语言模型
图像块
文本
旋转矩形框
视觉
物体
工业
令牌
计算机可执行指令
图像分割
图像编码器
可读存储介质
代表
转换器
坐标
尺寸
网格
系统为您推荐了相关专利信息
匹配推送方法
大数据
企业内部数据
实体识别模型
企业画像
移动采摘机器人
六自由度机械臂
二维云台
末端执行器
视觉
丝杆升降机构
运输机器人
升降旋转装置
视觉检测器
磁吸