摘要
本发明公开了一种基于部分最优传输的文本引导超声图像原型学习系统及其方法,其中系统包括:视觉原型模块,用于从图像数据中提取特征并构建图像原型空间;语义原型模块,用于从文本数据中提取特征并构建文本原型空间;部分最优传输模块,用于计算图像原型空间和文本原型空间之间的部分最优传输方案,以实现两者概率分布的对齐。所述系统通过最优传输模块将文本原型的概率分布调整为接近图像原型的概率分布,从而实现图像和文本之间的有效匹配和转换。本发明的有益之处在于提高了模型在不同模态数据处理任务中的泛化能力,并能够将视觉特征迁移到文本处理任务中,或将语义知识应用于图像识别和理解任务,显著提升模型在多种应用场景下的表现。
技术关键词
文本
原型
学习系统
语义
传输模块
BERT模型
图像特征提取
预处理图像数据
编码器
对齐模块
分词
语句
矩阵
输入模块
学习方法
视觉特征