基于大语言模型的工业视觉多下游任务处理方法

正文

推荐专利

申请号：CN202410710722

申请日期：2024-06-04

公开号：CN118279724B

公开日期：2024-10-08

类型：发明专利

摘要

本发明公开了基于大语言模型的工业视觉多下游任务处理方法，包括以下步骤：获取工业查询图像和提问文本，将所述工业查询图像分割为多个图像块，将图像块送入图像特征编码器提取图像特征，并将图像特征转换为查询图像令牌；识别所述提问文本得到视觉任务类型，根据系统设定、所述提问文本、所述视觉任务类型和所述查询图像令牌，生成大语言模型的输入文本；将所述输入文本所述大语言模型，所述大语言模型根据指定的任务类型、输入的系统设定和任务需求，处理不同的视觉任务。本发明能够高效且准确地处理工业视觉场景中的多种下游任务，并在工业视觉多下游任务上提高大模型的适应性和性能。

技术关键词

大语言模型图像块文本旋转矩形框视觉物体工业令牌计算机可执行指令图像分割图像编码器可读存储介质代表转换器坐标尺寸网格

系统为您推荐了相关专利信息

一种基于大数据驱动的资讯信息匹配推送方法及系统

匹配推送方法大数据企业内部数据实体识别模型企业画像

一种基于电力生产的文本数据和图片数据的融合方法及系统

图片文本融合方法预测电力设备深度学习模型

基于ddc指数分析的溢流风险智能预警方法与装置

算术平均值螺杆钻具溢流风险数据指数

一种基于双视觉协同的阿克曼移动采摘机器人

移动采摘机器人六自由度机械臂二维云台末端执行器视觉

一种光伏组件层压框取放系统

丝杆升降机构运输机器人升降旋转装置视觉检测器磁吸

基于大语言模型的工业视觉多下游任务处理方法

站点导航

APP 下载