一种标记压缩框架的图文处理方法及装置

正文

推荐专利

一种标记压缩框架的图文处理方法及装置

申请号：CN202510715518

申请日期：2025-05-30

公开号：CN120235250B

公开日期：2025-07-25

类型：发明专利

摘要

本发明公开了一种标记压缩框架的图文处理方法及装置，包括：视觉特征提取步骤；视觉标记筛选处理步骤；文本特征提取步骤；多模态融合与模型处理步骤。本发明的有益效果是：本发明的视觉标记压缩框架在无需额外训练的情况下，显著提升了MLLMs的推理效率；通过DVTS模块的全局与局部信息融合，以及TGVC模块的文本引导补充，大幅减少了视觉标记数量，同时保留关键视觉信息并增强视觉‑文本对齐；实验表明，本框架在多种图像和视频基准测试中，相较于现有方法，在大幅降低计算成本的同时，保持甚至提升了模型性能，具有显著的技术优势和应用潜力。

技术关键词

标记局部注意力机制视觉特征提取图文文本编码器融合特征关键视觉信息框架大语言模型多模态聚类序列中间层语义需求处理器可读存储介质

系统为您推荐了相关专利信息

一种基于橡胶树叶绿体SNP标记的橡胶树B型栽培品种鉴定方法

位点 SNP标记组合序列分子标记技术乳胶

基于无线传感器网络的湿度传感器位置优化方法及系统

无线传感器网络湿度传感器位置优化方法异常设备传感器设备

内镜与虚拟现实设备交互系统

虚拟现实设备交互系统数据处理设备影像双目摄像头

一种用于焊接协作机器人的控制系统及控制方法

变换计算方法焊枪位置坐标示教程序控制协作机器人

一种自动化代码审计方法、装置、计算机设备和存储介质

漏洞检测方法多模态协同语法结构代码审计方法符号执行方法

一种标记压缩框架的图文处理方法及装置

站点导航

APP 下载