基于大语言模型的工业视觉多下游任务处理方法

AITNT
正文
推荐专利
基于大语言模型的工业视觉多下游任务处理方法
申请号:CN202410710722
申请日期:2024-06-04
公开号:CN118279724B
公开日期:2024-10-08
类型:发明专利
摘要
本发明公开了基于大语言模型的工业视觉多下游任务处理方法,包括以下步骤:获取工业查询图像和提问文本,将所述工业查询图像分割为多个图像块,将图像块送入图像特征编码器提取图像特征,并将图像特征转换为查询图像令牌;识别所述提问文本得到视觉任务类型,根据系统设定、所述提问文本、所述视觉任务类型和所述查询图像令牌,生成大语言模型的输入文本;将所述输入文本所述大语言模型,所述大语言模型根据指定的任务类型、输入的系统设定和任务需求,处理不同的视觉任务。本发明能够高效且准确地处理工业视觉场景中的多种下游任务,并在工业视觉多下游任务上提高大模型的适应性和性能。
技术关键词
大语言模型 图像块 文本 旋转矩形框 视觉 物体 工业 令牌 计算机可执行指令 图像分割 图像编码器 可读存储介质 代表 转换器 坐标 尺寸 网格
系统为您推荐了相关专利信息
1
一种基于大数据驱动的资讯信息匹配推送方法及系统
匹配推送方法 大数据 企业内部数据 实体识别模型 企业画像
2
一种基于电力生产的文本数据和图片数据的融合方法及系统
图片 文本 融合方法 预测电力设备 深度学习模型
3
基于ddc指数分析的溢流风险智能预警方法与装置
算术平均值 螺杆钻具 溢流风险 数据 指数
4
一种基于双视觉协同的阿克曼移动采摘机器人
移动采摘机器人 六自由度机械臂 二维云台 末端执行器 视觉
5
一种光伏组件层压框取放系统
丝杆升降机构 运输机器人 升降旋转装置 视觉检测器 磁吸
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号