摘要
本申请涉及计算机视觉技术领域,尤其涉及一种基于多模态大模型的视频处理方法、装置、设备及介质。在利用多模态大模型对视频进行处理时,不仅将视频中的每个图像帧的特征均输入到了多模态大模型中的大语言模型,还将待提升图像帧中的关键子图像对应的特征输入到了大语言模型中,使大语言模型在进行处理时能够清楚该关键子图像中包括的信息,进而提高了多模态大模型对视频进行处理的准确率。
技术关键词
图像
分辨率
多模态
多层感知器
视频
矩阵
大语言模型
计算机视觉技术
分块
编码
文本
特征提取模块
电子设备
处理器
可读存储介质
像素
偏差
存储器