摘要
本申请提供一种用于图文理解任务的视觉语言模型二值化压缩方法及系统,包括:将用于图文理解任务的视觉语言模型的结构划分为图像编码模块、文本编码模块和跨模态融合模块;对每个模块中网络层级划分为多个可压缩的结构单元;对每个模块中所述结构单元进行二值化处理,并将二值化处理后的结构单元替换原所述结构单元,得到压缩后的图像编码模块、文本编码模块和跨模态融合模块构成的视觉语言模型。所述方法还包括跨模态语义保持机制设计。本申请在显著降低模型存储和计算开销的同时,最大限度保持模型的语义表达能力与任务性能,从而实现视觉语言模型在资源受限环境下的高效、可部署图文理解推理系统。
技术关键词
结构单元
图像编码
编码模块
图文
文本
语义向量
跨模态
压缩系统
资源受限环境
推理系统
校准
处理单元
重构单元
层级
模块结构
视觉特征
系统为您推荐了相关专利信息
残差卷积神经网络
康普顿效应
散射校正方法
解码模块
编码模块
术语
医药知识图谱
知识图谱构建
动态知识图谱
增量更新