一种视觉语言多任务处理方法、装置、设备及介质

正文

推荐专利

申请号：CN202411447202

申请日期：2024-10-16

公开号：CN119339216A

公开日期：2025-01-21

类型：发明专利

摘要

本发明公开了一种视觉语言多任务处理方法、装置、设备及介质，方法包括：获取待处理图像；对待处理图像进行图像编码，获得图像特征；接收任务需求信息，根据任务需求信息与图像特征构建相应的任务指令，任务指令包括图像特征、任务类型与指令内容，任务指令用于提示大语言模型基于任务类型与指令内容对图像特征执行相应的视觉语言任务；将任务指令输入到大语言模型，得到图像特征在视觉语言任务下的语言描述信息。通过基于任务需求和待处理图像构建相应的任务指令，以提示大语言模型执行相应的视觉语言任务，使得可以在同一框架下实现视觉语言多任务处理，提高了车险场景下对各类图像的视觉语言处理效率以及对不同任务需求的适应性。

技术关键词

多任务处理方法大语言模型视觉非易失性计算机可读存储介质图像块计算机可执行指令图像编码器图像处理模块处理器通信图像分割计算机设备文本存储器线性

系统为您推荐了相关专利信息

一种语音生成方法、装置、设备及其存储介质

文本特征向量语音生成方法声学特征文本编码器序列

一种道路地图中道路标志元素的构建方法及构建装置

道路标志元素采集设备地图机器可读指令

一种接线盒故障检测系统、方法和电子设备

故障特征故障检测系统接线盒多模态时域特征

一种手语翻译方法、装置、电子设备和存储介质

手语翻译方法序列特征识别特征特征选择图像

一种复杂环境下无人机多传感器融合故障检测与排除方法

多传感器融合排除方法故障检测视觉信息辅助无人机

一种视觉语言多任务处理方法、装置、设备及介质

站点导航

APP 下载