摘要
本发明公开一种基于模型复用的图文检索图网络方法,首先根据用户需求从互联网公开数据源构建多领域图像‑文本对数据集,利用预训练模型进行多级数据清洗确保数据质量,其次复用大规模预训练的多模态模型作为特征提取器,高效获取图像文本对的深度语义表征,显著降低了模型训练成本。然后设计异构拓扑结构,其中图像文本节点分别形成同质子图,跨模态边通过可学习的注意力权重动态生成。最后,利用构建图像文本语义关系图,并通过图采样与聚合完成对检索目标的上下文信息补充,进而生成检索特征,完成多模态组合的检索任务。本方法通过复用预训练模型特征使得过程更加高效,大幅提升了模型收敛速度。
技术关键词
图像特征提取模型
文本
预训练模型
图文
分块特征
图像语义关系
跨模态
网络
图像块
注意力机制
节点
多模态
多通道特征
计算机设备
数据采集系统
可读存储介质
系统为您推荐了相关专利信息
大语言模型
文本段落
生成方法
生成程序
字符识别算法
碳交易市场
数据分析模型
时间序列特征
策略数据库
交易平台
钢印
文本检测模型
文本识别模型
轮廓区域
轮廓信息