基于多模态大模型的视频处理方法、装置、设备及介质

AITNT
正文
推荐专利
基于多模态大模型的视频处理方法、装置、设备及介质
申请号:CN202411622513
申请日期:2024-11-13
公开号:CN119579414A
公开日期:2025-03-07
类型:发明专利
摘要
本申请涉及计算机视觉技术领域,尤其涉及一种基于多模态大模型的视频处理方法、装置、设备及介质。在利用多模态大模型对视频进行处理时,不仅将视频中的每个图像帧的特征均输入到了多模态大模型中的大语言模型,还将待提升图像帧中的关键子图像对应的特征输入到了大语言模型中,使大语言模型在进行处理时能够清楚该关键子图像中包括的信息,进而提高了多模态大模型对视频进行处理的准确率。
技术关键词
图像 分辨率 多模态 多层感知器 视频 矩阵 大语言模型 计算机视觉技术 分块 编码 文本 特征提取模块 电子设备 处理器 可读存储介质 像素 偏差 存储器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号