基于LLAVA大模型和图注意力神经网络的图文对匹配方法

AITNT
正文
推荐专利
基于LLAVA大模型和图注意力神经网络的图文对匹配方法
申请号:CN202510565572
申请日期:2025-04-30
公开号:CN120596694A
公开日期:2025-09-05
类型:发明专利
摘要
本发明提出了一种基于LLAVA大模型和图注意力神经网络的图文对匹配方法,仅用文本来理解图片的语义信息较为单一,难以全面捕捉复杂场景中的深层含义,将文本提示和原始图片数据输入进LLAVA大模型中,得到新的对图像的描述文本,从而将大模型融入模型之中,提供了一个额外的语义桥梁,能够更好地理解图像内容;在多标签任务中,不同标签之间可能存在某种关联或竞争关系且在面对复杂任务时,模型可能难以根据具体场景动态调整对不同信息的重视程度,将标签名,文本提示和文本信息同时输入图注意力神经网络中,从而能够自动学习到不同节点的重要性及其相互关系,即文本、文本提示、标签名的重要性及其相互关系,从而实现对输入信息的自适应处理。
技术关键词
注意力神经网络 标签 图片 图文 文本分类器 图像编码器 跨模态 语义 关系 场景 数据 桥梁 矩阵 节点 动态
系统为您推荐了相关专利信息
1
文本生成模型训练、文本生成方法、装置、设备及介质
文本生成模型 大语言模型 生成页面 文本生成方法 参数
2
基于激光雷达与图像融合定位作物中心点的跟踪导航方法
跟踪导航方法 激光雷达点云数据 农业机器人 寻找密度峰值 相机外参
3
基于大数据驱动的智能纺织车间管控平台及方法
管控方法 模式 遗传算法 大数据 管控平台
4
一种基于人脸微表情的异常个体识别分析方法
人脸微表情 识别分析方法 纹理特征 注意力机制 微表情识别
5
基于点云自注意力网络的全脉冲采样雷达序列分选方法
注意力 点云 分选方法 输出特征 数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号