摘要
本发明公开了一种视觉任务处理方法、装置、电子设备、介质及产品。所述方法包括:获取视频图像序列和用户指令;将所述视频图像序列和所述用户指令输入任务偏好模型中,通过所述任务偏好模型中的任务解码器和多模态大语言模型扩展新的视觉任务,输出视觉任务处理结果。该方法通过扩展新的视觉任务增强多模态大语言模型对视觉任务的理解能力,达到能够更精确的感知和理解视觉任务。
技术关键词
大语言模型
令牌
多模态
解码器
视频
序列
指令
图像
计算机程序产品
识别用户意图
标记
视觉特征
电子设备
标签
模板
可读存储介质
处理器通信
系统为您推荐了相关专利信息
地形特征点
编码器
自主式水下机器人
实时数据
多波束声呐
视频加密方法
嵌入水印信息
分片结构
分布式密钥
内容加密
细胞分类方法
图像编解码
分类网络
视觉
匹配模块
多源特征融合
刀具磨损状态
融合特征
门控循环单元
数据
农业病虫害
多模态传感器
病害特征
可见光图像
移动端