摘要
本发明提出了一种基于LLAVA大模型和图注意力神经网络的图文对匹配方法,仅用文本来理解图片的语义信息较为单一,难以全面捕捉复杂场景中的深层含义,将文本提示和原始图片数据输入进LLAVA大模型中,得到新的对图像的描述文本,从而将大模型融入模型之中,提供了一个额外的语义桥梁,能够更好地理解图像内容;在多标签任务中,不同标签之间可能存在某种关联或竞争关系且在面对复杂任务时,模型可能难以根据具体场景动态调整对不同信息的重视程度,将标签名,文本提示和文本信息同时输入图注意力神经网络中,从而能够自动学习到不同节点的重要性及其相互关系,即文本、文本提示、标签名的重要性及其相互关系,从而实现对输入信息的自适应处理。
技术关键词
注意力神经网络
标签
图片
图文
文本分类器
图像编码器
跨模态
语义
关系
场景
数据
桥梁
矩阵
节点
动态
系统为您推荐了相关专利信息
文本生成模型
大语言模型
生成页面
文本生成方法
参数
跟踪导航方法
激光雷达点云数据
农业机器人
寻找密度峰值
相机外参
人脸微表情
识别分析方法
纹理特征
注意力机制
微表情识别