一种基于大语言模型增熵的文本图像匹配方法及系统

正文

推荐专利

申请号：CN202411541502

申请日期：2024-10-31

公开号：CN119646528A

公开日期：2025-03-18

类型：发明专利

摘要

本发明涉及计算机视觉技术领域，提出一种基于大语言模型增熵的文本图像匹配方法及系统，其中包括：将数据集图像特征通过视觉注意力编码器得到原始图像编码；基于原始图像编码构建超图并通过超图神经网络生成超图图像特征；将超图图像特征与原始图像编码进行残差联结构建视觉超图适应器；利用图像特征描述生成的第一文本特征通过提示学习方法诱导大语言模型生成同义语料，得到经过增熵的融合文本特征；对融合文本特征和第一文本特征进行编码；基于多维特征编码构建超图并通过超图神经网络生成超图文本特征；将超图文本特征降维后结合原始语料特征编码构建文本超图适应器；基于视觉超图适应器和文本超图适应器计算相似度矩阵，得到相似度排名。

技术关键词

图像匹配方法大语言模型图像编码注意力编码器计算机可读指令文本编码器学习方法图像匹配系统矩阵计算机视觉技术数据特征提取模型捕获特征特征提取模块学习特征

系统为您推荐了相关专利信息

一种基于采集，视频审核的智能驾驶数据标注方法

数据标注方法动态规则库车载传感器运动轨迹预测车辆状态信息

视频内容检索方法以及智能电视

视频内容检索方法文本图片关键帧语音

一种大语言模型的Token级缓存匹配方法、系统及存储介质

语义主题 BERT模型大语言模型输入输出单元上下文特征

基于图文混合推理的三维室内场景生成方法及系统

文本隐式特征场景生成系统场景生成方法三维模型

一种基于多模态大语言模型解析表格的方法

大语言模型多模态表格矩阵参数

一种基于大语言模型增熵的文本图像匹配方法及系统

站点导航

APP 下载