基于CLIP的粗到细图像-文本跨模态语义转换方法及系统

正文

推荐专利

申请号：CN202511124626

申请日期：2025-08-12

公开号：CN121010977A

公开日期：2025-11-25

类型：发明专利

摘要

本发明公开了一种基于CLIP的粗到细图像‑文本跨模态语义转换方法及系统，包括获取配对的图像及粗粒度文本并输入至跨模态对齐迁移模型，利用CLIP模型对配对的图像及粗粒度文本进行编码，得到下游图像特征和预训练文本特征；利用超球面变分编码器估计下游图像特征和预训练文本特征的低维分布，得到下游图像特征的超球面潜在分布和预训练文本特征的超球面潜在分布；利用插值模块基于下游图像特征的超球面潜在分布和预训练文本特征的超球面潜在分布进行超球空间插值，得到下游任务的细粒度文本特征的估计分布；本发明实现从粗到细的粒度对语义进行建模，适应于在有标签的真实细粒度文本数据稀缺的情况下估计下游文本的真实特征。

技术关键词

语义转换方法球面跨模态插值模块集中度文本编码器结构对称图像解码器无监督参数变量视觉两阶段数学

基于CLIP的粗到细图像-文本跨模态语义转换方法及系统

站点导航

APP 下载