用于图文理解任务的视觉语言模型二值化压缩方法和系统

AITNT
正文
推荐专利
用于图文理解任务的视觉语言模型二值化压缩方法和系统
申请号:CN202510848158
申请日期:2025-06-24
公开号:CN120747257A
公开日期:2025-10-03
类型:发明专利
摘要
本申请提供一种用于图文理解任务的视觉语言模型二值化压缩方法及系统,包括:将用于图文理解任务的视觉语言模型的结构划分为图像编码模块、文本编码模块和跨模态融合模块;对每个模块中网络层级划分为多个可压缩的结构单元;对每个模块中所述结构单元进行二值化处理,并将二值化处理后的结构单元替换原所述结构单元,得到压缩后的图像编码模块、文本编码模块和跨模态融合模块构成的视觉语言模型。所述方法还包括跨模态语义保持机制设计。本申请在显著降低模型存储和计算开销的同时,最大限度保持模型的语义表达能力与任务性能,从而实现视觉语言模型在资源受限环境下的高效、可部署图文理解推理系统。
技术关键词
结构单元 图像编码 编码模块 图文 文本 语义向量 跨模态 压缩系统 资源受限环境 推理系统 校准 处理单元 重构单元 层级 模块结构 视觉特征
系统为您推荐了相关专利信息
1
一种CT散射校正方法、装置、电子设备及存储介质
残差卷积神经网络 康普顿效应 散射校正方法 解码模块 编码模块
2
虚拟平台的语音控制方法、系统及存储介质
指令 图像特征向量 语音控制方法 序列 噪声分量
3
深度NLP模型用于医药文档关键信息提取的系统及方法
术语 医药知识图谱 知识图谱构建 动态知识图谱 增量更新
4
基于注意力多粒度机制特征融合方法、装置、设备及介质
特征融合方法 多模态特征 注意力 动态门控 机制
5
纪要生成方法、装置、智能眼镜、服务器和系统
智能眼镜 生成方法 图像采集单元 文本 音频
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号