基于LLAVA大模型和图注意力神经网络的图文对匹配方法

正文

推荐专利

申请号：CN202510565572

申请日期：2025-04-30

公开号：CN120596694A

公开日期：2025-09-05

类型：发明专利

摘要

本发明提出了一种基于LLAVA大模型和图注意力神经网络的图文对匹配方法，仅用文本来理解图片的语义信息较为单一，难以全面捕捉复杂场景中的深层含义，将文本提示和原始图片数据输入进LLAVA大模型中，得到新的对图像的描述文本，从而将大模型融入模型之中，提供了一个额外的语义桥梁，能够更好地理解图像内容；在多标签任务中，不同标签之间可能存在某种关联或竞争关系且在面对复杂任务时，模型可能难以根据具体场景动态调整对不同信息的重视程度，将标签名，文本提示和文本信息同时输入图注意力神经网络中，从而能够自动学习到不同节点的重要性及其相互关系，即文本、文本提示、标签名的重要性及其相互关系，从而实现对输入信息的自适应处理。

技术关键词

注意力神经网络标签图片图文文本分类器图像编码器跨模态语义关系场景数据桥梁矩阵节点动态

系统为您推荐了相关专利信息

文本生成模型训练、文本生成方法、装置、设备及介质

文本生成模型大语言模型生成页面文本生成方法参数

基于激光雷达与图像融合定位作物中心点的跟踪导航方法

跟踪导航方法激光雷达点云数据农业机器人寻找密度峰值相机外参

基于大数据驱动的智能纺织车间管控平台及方法

管控方法模式遗传算法大数据管控平台

一种基于人脸微表情的异常个体识别分析方法

人脸微表情识别分析方法纹理特征注意力机制微表情识别

基于点云自注意力网络的全脉冲采样雷达序列分选方法

注意力点云分选方法输出特征数据

基于LLAVA大模型和图注意力神经网络的图文对匹配方法

站点导航

APP 下载