一种基于检索增强的多模态意图预测方法及系统

正文

推荐专利

申请号：CN202510184935

申请日期：2025-02-19

公开号：CN120125961A

公开日期：2025-06-10

类型：发明专利

摘要

本发明涉及自然语言处理和机器学习领域，公开了一种基于检索增强的多模态意图预测方法及系统，包括使用视觉模型CLIP从意图预测图像中提取意图预测图像对应的图像特征；运用大语言模型处理所述图像特征；运用交叉注意力机制处理所述意图预测图像的文本描述特征；在视觉模型CLIP和大语言模型间添加一个可学习的轻量级适配器；基于意图预测数据集构建检索数据库。本发明构建了基于视觉‑语言大模型的高性能意图预测框架，使用适配器弥合不同模态的差距，实现了视觉模型和语言模型的有效联合优化；对于输入图像为其检索最为近似的样本一同输入大语言模型，得到增强的预测结果；通过构建检索数据库并利用其中的近似图像信息，增强了模型的泛化能力。

技术关键词

意图预测方法交叉注意力机制大语言模型图像特征向量文本视觉矩阵适配器前馈神经网络标签预测系统图片图像分割分词自然语言数据编码

系统为您推荐了相关专利信息

一种基于双时态融合感知的智能补全方法

补全方法实体编码数据关系

基于深度学习驱动的社交媒体情感分析方法及其系统

情感分类模型社交媒体平台深度学习模型时间序列预测方法强度

一种基于大语言模型的医疗服务接口调用方法

服务接口调用方法大语言模型医疗业务系统参数文本

情感分析模型构建方法、文本情感分析方法及相关设备

情感分析模型语义特征情感特征文本情感分析方法数据

一种基于样本均衡策略与异构图的机器人检测方法及系统

机器人检测方法均衡策略节点异构样本

一种基于检索增强的多模态意图预测方法及系统

站点导航

APP 下载