用于多模态图文检索的对比归一化概率表示方法

正文

推荐专利

申请号：CN202510529258

申请日期：2025-04-24

公开号：CN120448728A

公开日期：2025-08-08

类型：发明专利

摘要

本发明公开了一种用于多模态图文检索的对比归一化概率表示方法，通过集成Vision Transformer和BERT作为视觉与文本编码器，分别提取图像和文本的高阶语义特征；随后对特征进行概率分布建模，以自然表征模态间多对多匹配关系；引入对比归一化模块，通过特征归一化与对比学习优化嵌入空间，解决模态差异导致的特征不对齐问题；采用KL散度或欧氏距离计算概率分布相似性，并结合软对比损失函数和正则化策略训练模型，最终实现高效、鲁棒的跨模态检索，显著提升复杂场景下的检索精度与泛化能力。

技术关键词

多模态概率分布建模图文归一化模块计算机执行指令文本编码器 sigmoid函数图像正则化策略约束特征可读存储介质语义特征处理器存储器样本阶段分辨率电子设备

系统为您推荐了相关专利信息

数据库查询语句的解析方法、设备及存储介质

解析器数据库查询语句计算机执行指令生成执行计划查询语句解析

车路协同智慧通信信号杆装置

杆装置动态交通信息发布网络设备箱摄像一体机扇形齿轮

一种硬盘数据可靠性测试方法及系统

可靠性测试方法失效特征存储子系统多模态门控循环单元神经网络

一种工业产品设计过程建模优化方法及系统

建模优化方法新工业产品多源异构数据多模态协同混合网络

一种基于多模态传感与边缘智能计算的PMMA聚合反应粘度实时监测系统及方法

实时监测系统数据对齐模块多光谱成像补偿控制器可视化人机界面

用于多模态图文检索的对比归一化概率表示方法

站点导航

APP 下载