摘要
本发明公开了一种视觉语言多任务处理方法、装置、设备及介质,方法包括:获取待处理图像;对待处理图像进行图像编码,获得图像特征;接收任务需求信息,根据任务需求信息与图像特征构建相应的任务指令,任务指令包括图像特征、任务类型与指令内容,任务指令用于提示大语言模型基于任务类型与指令内容对图像特征执行相应的视觉语言任务;将任务指令输入到大语言模型,得到图像特征在视觉语言任务下的语言描述信息。通过基于任务需求和待处理图像构建相应的任务指令,以提示大语言模型执行相应的视觉语言任务,使得可以在同一框架下实现视觉语言多任务处理,提高了车险场景下对各类图像的视觉语言处理效率以及对不同任务需求的适应性。
技术关键词
多任务处理方法
大语言模型
视觉
非易失性计算机可读存储介质
图像块
计算机可执行指令
图像编码器
图像处理模块
处理器通信
图像分割
计算机设备
文本
存储器
线性
系统为您推荐了相关专利信息
文本特征向量
语音生成方法
声学特征
文本编码器
序列
多传感器融合
排除方法
故障检测
视觉信息辅助
无人机