摘要
本发明公开了一种用于多模态图文检索的对比归一化概率表示方法,通过集成Vision Transformer和BERT作为视觉与文本编码器,分别提取图像和文本的高阶语义特征;随后对特征进行概率分布建模,以自然表征模态间多对多匹配关系;引入对比归一化模块,通过特征归一化与对比学习优化嵌入空间,解决模态差异导致的特征不对齐问题;采用KL散度或欧氏距离计算概率分布相似性,并结合软对比损失函数和正则化策略训练模型,最终实现高效、鲁棒的跨模态检索,显著提升复杂场景下的检索精度与泛化能力。
技术关键词
多模态
概率分布建模
图文
归一化模块
计算机执行指令
文本编码器
sigmoid函数
图像
正则化策略
约束特征
可读存储介质
语义特征
处理器
存储器
样本
阶段
分辨率
电子设备
系统为您推荐了相关专利信息
解析器
数据库查询语句
计算机执行指令
生成执行计划
查询语句解析
杆装置
动态交通信息发布
网络设备箱
摄像一体机
扇形齿轮
可靠性测试方法
失效特征
存储子系统
多模态
门控循环单元神经网络
建模优化方法
新工业产品
多源异构数据
多模态协同
混合网络
实时监测系统
数据对齐模块
多光谱成像
补偿控制器
可视化人机界面