一种标记压缩框架的图文处理方法及装置

AITNT
正文
推荐专利
一种标记压缩框架的图文处理方法及装置
申请号:CN202510715518
申请日期:2025-05-30
公开号:CN120235250B
公开日期:2025-07-25
类型:发明专利
摘要
本发明公开了一种标记压缩框架的图文处理方法及装置,包括:视觉特征提取步骤;视觉标记筛选处理步骤;文本特征提取步骤;多模态融合与模型处理步骤。本发明的有益效果是:本发明的视觉标记压缩框架在无需额外训练的情况下,显著提升了MLLMs的推理效率;通过DVTS模块的全局与局部信息融合,以及TGVC模块的文本引导补充,大幅减少了视觉标记数量,同时保留关键视觉信息并增强视觉‑文本对齐;实验表明,本框架在多种图像和视频基准测试中,相较于现有方法,在大幅降低计算成本的同时,保持甚至提升了模型性能,具有显著的技术优势和应用潜力。
技术关键词
标记 局部注意力机制 视觉特征提取 图文 文本编码器 融合特征 关键视觉信息 框架 大语言模型 多模态 聚类 序列 中间层 语义需求 处理器 可读存储介质
系统为您推荐了相关专利信息
1
一种基于橡胶树叶绿体SNP标记的橡胶树B型栽培品种鉴定方法
位点 SNP标记组合 序列 分子标记技术 乳胶
2
基于无线传感器网络的湿度传感器位置优化方法及系统
无线传感器网络 湿度传感器 位置优化方法 异常设备 传感器设备
3
内镜与虚拟现实设备交互系统
虚拟现实设备 交互系统 数据处理设备 影像 双目摄像头
4
一种用于焊接协作机器人的控制系统及控制方法
变换计算方法 焊枪位置 坐标 示教程序 控制协作机器人
5
一种自动化代码审计方法、装置、计算机设备和存储介质
漏洞检测方法 多模态协同 语法结构 代码审计方法 符号执行方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号