摘要
本发明公开了一种标记压缩框架的图文处理方法及装置,包括:视觉特征提取步骤;视觉标记筛选处理步骤;文本特征提取步骤;多模态融合与模型处理步骤。本发明的有益效果是:本发明的视觉标记压缩框架在无需额外训练的情况下,显著提升了MLLMs的推理效率;通过DVTS模块的全局与局部信息融合,以及TGVC模块的文本引导补充,大幅减少了视觉标记数量,同时保留关键视觉信息并增强视觉‑文本对齐;实验表明,本框架在多种图像和视频基准测试中,相较于现有方法,在大幅降低计算成本的同时,保持甚至提升了模型性能,具有显著的技术优势和应用潜力。
技术关键词
标记
局部注意力机制
视觉特征提取
图文
文本编码器
融合特征
关键视觉信息
框架
大语言模型
多模态
聚类
序列
中间层
语义需求
处理器
可读存储介质
系统为您推荐了相关专利信息
无线传感器网络
湿度传感器
位置优化方法
异常设备
传感器设备
虚拟现实设备
交互系统
数据处理设备
影像
双目摄像头
变换计算方法
焊枪位置
坐标
示教程序
控制协作机器人
漏洞检测方法
多模态协同
语法结构
代码审计方法
符号执行方法