摘要
本发明公开了一种基于CLIP的粗到细图像‑文本跨模态语义转换方法及系统,包括获取配对的图像及粗粒度文本并输入至跨模态对齐迁移模型,利用CLIP模型对配对的图像及粗粒度文本进行编码,得到下游图像特征和预训练文本特征;利用超球面变分编码器估计下游图像特征和预训练文本特征的低维分布,得到下游图像特征的超球面潜在分布和预训练文本特征的超球面潜在分布;利用插值模块基于下游图像特征的超球面潜在分布和预训练文本特征的超球面潜在分布进行超球空间插值,得到下游任务的细粒度文本特征的估计分布;本发明实现从粗到细的粒度对语义进行建模,适应于在有标签的真实细粒度文本数据稀缺的情况下估计下游文本的真实特征。
技术关键词
语义转换方法
球面
跨模态
插值模块
集中度
文本编码器
结构对称
图像解码器
无监督
参数
变量
视觉
两阶段
数学