摘要
本申请涉及基于细粒度特征提取与全局信息整合的多模态理解优化方法。该方法包括:将输入图像切分为多个局部图像块,提取出局部细粒度视觉特征和全局视觉特征,并基于注意力机制,将其进行交互,得到局部上下文特征;其次,将其与局部细粒度视觉特征进行特征融合,生成融合视觉特征;将融合视觉特征映射至与大语言模型文本特征相同的语义空间,得到投影后的视觉特征,并基于文本特征通过注意力权重动态筛选,得到关键视觉特征;将关键视觉特征与文本特征进行融合,生成联合特征表示,并将其输入至大语言模型,生成语义解析结果。该方法通过引入全局信息和动态特征选择,能够提高模型对复杂场景下多模态内容的理解能力,降低了模型计算开销。
技术关键词
全局视觉特征
上下文特征
融合视觉特征
全局信息整合
动态特征选择
文本
预训练模型
语义
图像块
全局特征融合
多头注意力机制
滑动窗口
编码
特征提取模块
大语言模型