用于图文理解任务的视觉语言模型二值化压缩方法和系统

正文

推荐专利

申请号：CN202510848158

申请日期：2025-06-24

公开号：CN120747257A

公开日期：2025-10-03

类型：发明专利

摘要

本申请提供一种用于图文理解任务的视觉语言模型二值化压缩方法及系统，包括：将用于图文理解任务的视觉语言模型的结构划分为图像编码模块、文本编码模块和跨模态融合模块；对每个模块中网络层级划分为多个可压缩的结构单元；对每个模块中所述结构单元进行二值化处理，并将二值化处理后的结构单元替换原所述结构单元，得到压缩后的图像编码模块、文本编码模块和跨模态融合模块构成的视觉语言模型。所述方法还包括跨模态语义保持机制设计。本申请在显著降低模型存储和计算开销的同时，最大限度保持模型的语义表达能力与任务性能，从而实现视觉语言模型在资源受限环境下的高效、可部署图文理解推理系统。

技术关键词

结构单元图像编码编码模块图文文本语义向量跨模态压缩系统资源受限环境推理系统校准处理单元重构单元层级模块结构视觉特征

系统为您推荐了相关专利信息

一种CT散射校正方法、装置、电子设备及存储介质

残差卷积神经网络康普顿效应散射校正方法解码模块编码模块

虚拟平台的语音控制方法、系统及存储介质

指令图像特征向量语音控制方法序列噪声分量

深度NLP模型用于医药文档关键信息提取的系统及方法

术语医药知识图谱知识图谱构建动态知识图谱增量更新

基于注意力多粒度机制特征融合方法、装置、设备及介质

特征融合方法多模态特征注意力动态门控机制

纪要生成方法、装置、智能眼镜、服务器和系统

智能眼镜生成方法图像采集单元文本音频

用于图文理解任务的视觉语言模型二值化压缩方法和系统

站点导航

APP 下载