摘要
本发明公开了一种用于多模态图文检索的对比归一化概率表示方法,通过集成Vision Transformer和BERT作为视觉与文本编码器,分别提取图像和文本的高阶语义特征;随后对特征进行概率分布建模,以自然表征模态间多对多匹配关系;引入对比归一化模块,通过特征归一化与对比学习优化嵌入空间,解决模态差异导致的特征不对齐问题;采用KL散度或欧氏距离计算概率分布相似性,并结合软对比损失函数和正则化策略训练模型,最终实现高效、鲁棒的跨模态检索,显著提升复杂场景下的检索精度与泛化能力。
技术关键词
多模态
概率分布建模
图文
归一化模块
计算机执行指令
文本编码器
sigmoid函数
图像
正则化策略
约束特征
可读存储介质
语义特征
处理器
存储器
样本
阶段
分辨率
电子设备
系统为您推荐了相关专利信息
成像诊断系统
微型电机驱动装置
采集单元
运维管理平台
归一化模块
图像特征向量
图案特征
上架
合规检测方法
文本特征向量
人推荐方法
情感特征
多模态
社交媒体平台
个性化推荐技术