基于检索增强的多模态提示学习方法

正文

推荐专利

基于检索增强的多模态提示学习方法

申请号：CN202411534499

申请日期：2024-10-30

公开号：CN119540717A

公开日期：2025-02-28

类型：发明专利

摘要

本发明公开了基于检索增强的多模态提示学习方法，能够同时对齐VLMs的文本编码器和视觉编码器，采用检索增强策略，通过交叉注意力机制(Cross‑Attention)捕获跨模态信息，实现高效的多模态交互，基于跨模态信息生成自适应嵌入提示，以灵活对齐多模态表示空间，引入了可学习向量库(LTL)，进一步优化提示生成效果，确保在各种场景中的卓越性能，能够通过检索增强策略和跨模态协同感知技术增强自适应提示的准确性，并结合可学习向量库，实现多模态信息的高效交互，降低微调所需的计算资源，显著提升了模型的泛化能力和复杂任务的处理性能，为大规模预训练VLMs的高效适应与优化提供了新的解决方案。

技术关键词

交叉注意力机制学习方法文本编码器协同感知技术跨模态多模态信息特征提取器视觉特征图像分割策略序列线性场景

系统为您推荐了相关专利信息

一种面向多特征约束下的数据分析模型

数据分析模型网络模块数据采集模块样本基础

一种基于CLIP的多层次自适应少样本医学影像异常检测模型的训练方法及系统

文本编码器异常检测方法图像块列表多层次

一种面向农产品风险指标的动态预警评估方法

预警评估方法面向农产品风险动态时间规整算法数据

一种基于大数据采集的企业信用风险评估方法

时空融合特征时序神经网络注意力机制生成企业企业信用风险

一种音频通话质量检测评估方法及系统

检测评估方法指标语音断线多状态

基于检索增强的多模态提示学习方法

站点导航

APP 下载