摘要
本发明公开了一种基于多模态大模型引导的图像深度聚类方法及系统,所述方法包括:针对每张待聚类的图像生成文本描述,对文本描述进行特征提取得到文本特征集合;将待聚类的所有图像输入CLIP模型的图像编码器,得到图像特征集合;对于每个图像特征,计算其与文本特征集合中各文本特征的余弦距离,选取前N个最大余弦距离对应的文本特征,构建语义特征空间;将融合后的图像特征输入聚类算法,获得聚类结果并计算聚类指标。通过利用多模态大模型生成图像的细粒度描述,本发明能够精准地区分属于不同类别的相似图像,从而显著提升图像聚类性能。通过多模态特征的融合,本发明有效增强了不同类别之间相似图像的区分性,从而提高了图像聚类的准确性。
技术关键词
深度聚类方法
语义特征
图像编码器
聚类算法
非暂态计算机可读存储介质
多模态特征融合
聚类系统
文本编码器
轮廓系数
处理器
指标
模块
存储器
电子设备
指数
系统为您推荐了相关专利信息
协同推荐方法
多维特征数据
协同过滤算法
因子
矩阵
自主移动机器人
分布式调度方法
周围环境信息
集群
移动机器人执行