一种视觉任务处理方法、装置、电子设备、介质及产品

正文

推荐专利

申请号：CN202411909848

申请日期：2024-12-24

公开号：CN119851172A

公开日期：2025-04-18

类型：发明专利

摘要

本发明公开了一种视觉任务处理方法、装置、电子设备、介质及产品。所述方法包括：获取视频图像序列和用户指令；将所述视频图像序列和所述用户指令输入任务偏好模型中，通过所述任务偏好模型中的任务解码器和多模态大语言模型扩展新的视觉任务，输出视觉任务处理结果。该方法通过扩展新的视觉任务增强多模态大语言模型对视觉任务的理解能力，达到能够更精确的感知和理解视觉任务。

技术关键词

大语言模型令牌多模态解码器视频序列指令图像计算机程序产品识别用户意图标记视觉特征电子设备标签模板可读存储介质处理器通信

系统为您推荐了相关专利信息

一种水下机器人导航方法、系统、电子设备及存储介质

地形特征点编码器自主式水下机器人实时数据多波束声呐

基于动态分片和多层混淆的视频加密方法及系统

视频加密方法嵌入水印信息分片结构分布式密钥内容加密

基于视觉语言大模型与提示学习的病理图像细胞分类方法

细胞分类方法图像编解码分类网络视觉匹配模块

一种基于多源特征融合的刀具磨损状态预测方法

多源特征融合刀具磨损状态融合特征门控循环单元数据

一种农业病虫害的智慧检测方法

农业病虫害多模态传感器病害特征可见光图像移动端

一种视觉任务处理方法、装置、电子设备、介质及产品

站点导航

APP 下载