一种视觉语言多任务处理方法、装置、设备及介质

AITNT
正文
推荐专利
一种视觉语言多任务处理方法、装置、设备及介质
申请号:CN202411447202
申请日期:2024-10-16
公开号:CN119339216A
公开日期:2025-01-21
类型:发明专利
摘要
本发明公开了一种视觉语言多任务处理方法、装置、设备及介质,方法包括:获取待处理图像;对待处理图像进行图像编码,获得图像特征;接收任务需求信息,根据任务需求信息与图像特征构建相应的任务指令,任务指令包括图像特征、任务类型与指令内容,任务指令用于提示大语言模型基于任务类型与指令内容对图像特征执行相应的视觉语言任务;将任务指令输入到大语言模型,得到图像特征在视觉语言任务下的语言描述信息。通过基于任务需求和待处理图像构建相应的任务指令,以提示大语言模型执行相应的视觉语言任务,使得可以在同一框架下实现视觉语言多任务处理,提高了车险场景下对各类图像的视觉语言处理效率以及对不同任务需求的适应性。
技术关键词
多任务处理方法 大语言模型 视觉 非易失性计算机可读存储介质 图像块 计算机可执行指令 图像编码器 图像处理模块 处理器通信 图像分割 计算机设备 文本 存储器 线性
系统为您推荐了相关专利信息
1
一种语音生成方法、装置、设备及其存储介质
文本特征向量 语音生成方法 声学特征 文本编码器 序列
2
一种道路地图中道路标志元素的构建方法及构建装置
道路标志 元素 采集设备 地图 机器可读指令
3
一种接线盒故障检测系统、方法和电子设备
故障特征 故障检测系统 接线盒 多模态 时域特征
4
一种手语翻译方法、装置、电子设备和存储介质
手语翻译方法 序列特征 识别特征 特征选择 图像
5
一种复杂环境下无人机多传感器融合故障检测与排除方法
多传感器融合 排除方法 故障检测 视觉信息辅助 无人机
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号