一种图文匹配方法、图文匹配多模态大模型及大模型训练方法

正文

推荐专利

申请号：CN202411448052

申请日期：2024-10-17

公开号：CN118965024B

公开日期：2025-01-07

类型：发明专利

摘要

本发明公开了一种图文匹配方法、图文匹配多模态大模型以及大模型训练方法，匹配方法包括特征提取和特征判定，特征提取包括：S1、对输入的图像进行编码得到初始图像特征；S2、对输入的文本进行编码得到初始文本特征；S3、将初始图像特征和初始文本特征分别加上一个不同的位置编码，得到二级图像特征和二级文本特征；S4、将步骤S3中得到的二级图像特征和二级文本特征进行融合，得到融合文本特征IT和融合图像特征TI；特征判定包括：S5、将融合文本特征IT和融合图像特征TI分别进行特征池化，然后缩放并拼接，对拼接后的特征进行特征判别，通过判别线性层输出0至1表示匹配程度。本发明可以同时提取并深度融合视觉和语言特征。

技术关键词

融合图像特征图文匹配方法编码模块模型训练方法多模态特征融合图片线性注意力像素图象代表文本编码器图像编码器融合视觉

系统为您推荐了相关专利信息

一种通用的信息抽取方法

跨度信息抽取方法信息抽取模型变压器模型矩阵

视觉编码器的训练方法、视觉编码方法和装置

注意力参数融合特征图像块图像嵌入嵌入特征

一种基于特征信息重建增强的图像分割方法

图像分割方法参数化技术注意力 SAM模块特征信息提取

一种航天推进室增材制造金属颗粒夹杂度降低方法

输入多尺度边界轮廓航天线段数据

图像分类识别模型的训练方法和装置、图像分类识别方法

样本图像分类识别方法语义标签训练集标记

一种图文匹配方法、图文匹配多模态大模型及大模型训练方法

站点导航

APP 下载