基于细粒度特征提取与全局信息整合的多模态理解优化方法

正文

推荐专利

申请号：CN202510392776

申请日期：2025-03-31

公开号：CN120316709A

公开日期：2025-07-15

类型：发明专利

摘要

本申请涉及基于细粒度特征提取与全局信息整合的多模态理解优化方法。该方法包括：将输入图像切分为多个局部图像块，提取出局部细粒度视觉特征和全局视觉特征，并基于注意力机制，将其进行交互，得到局部上下文特征；其次，将其与局部细粒度视觉特征进行特征融合，生成融合视觉特征；将融合视觉特征映射至与大语言模型文本特征相同的语义空间，得到投影后的视觉特征，并基于文本特征通过注意力权重动态筛选，得到关键视觉特征；将关键视觉特征与文本特征进行融合，生成联合特征表示，并将其输入至大语言模型，生成语义解析结果。该方法通过引入全局信息和动态特征选择，能够提高模型对复杂场景下多模态内容的理解能力，降低了模型计算开销。

技术关键词

全局视觉特征上下文特征融合视觉特征全局信息整合动态特征选择文本预训练模型语义图像块全局特征融合多头注意力机制滑动窗口编码特征提取模块大语言模型

基于细粒度特征提取与全局信息整合的多模态理解优化方法

站点导航

APP 下载