摘要
本发明涉及自然语言处理和机器学习领域,公开了一种基于检索增强的多模态意图预测方法及系统,包括使用视觉模型CLIP从意图预测图像中提取意图预测图像对应的图像特征;运用大语言模型处理所述图像特征;运用交叉注意力机制处理所述意图预测图像的文本描述特征;在视觉模型CLIP和大语言模型间添加一个可学习的轻量级适配器;基于意图预测数据集构建检索数据库。本发明构建了基于视觉‑语言大模型的高性能意图预测框架,使用适配器弥合不同模态的差距,实现了视觉模型和语言模型的有效联合优化;对于输入图像为其检索最为近似的样本一同输入大语言模型,得到增强的预测结果;通过构建检索数据库并利用其中的近似图像信息,增强了模型的泛化能力。
技术关键词
意图预测方法
交叉注意力机制
大语言模型
图像特征向量
文本
视觉
矩阵
适配器
前馈神经网络
标签
预测系统
图片
图像分割
分词
自然语言
数据
编码
系统为您推荐了相关专利信息
情感分类模型
社交媒体平台
深度学习模型
时间序列预测方法
强度
服务接口调用方法
大语言模型
医疗业务系统
参数
文本
情感分析模型
语义特征
情感特征
文本情感分析方法
数据