一种基于多模态大模型引导的图像深度聚类方法及系统

AITNT
正文
推荐专利
一种基于多模态大模型引导的图像深度聚类方法及系统
申请号:CN202510386449
申请日期:2025-03-31
公开号:CN119888293A
公开日期:2025-04-25
类型:发明专利
摘要
本发明公开了一种基于多模态大模型引导的图像深度聚类方法及系统,所述方法包括:针对每张待聚类的图像生成文本描述,对文本描述进行特征提取得到文本特征集合;将待聚类的所有图像输入CLIP模型的图像编码器,得到图像特征集合;对于每个图像特征,计算其与文本特征集合中各文本特征的余弦距离,选取前N个最大余弦距离对应的文本特征,构建语义特征空间;将融合后的图像特征输入聚类算法,获得聚类结果并计算聚类指标。通过利用多模态大模型生成图像的细粒度描述,本发明能够精准地区分属于不同类别的相似图像,从而显著提升图像聚类性能。通过多模态特征的融合,本发明有效增强了不同类别之间相似图像的区分性,从而提高了图像聚类的准确性。
技术关键词
深度聚类方法 语义特征 图像编码器 聚类算法 非暂态计算机可读存储介质 多模态特征融合 聚类系统 文本编码器 轮廓系数 处理器 指标 模块 存储器 电子设备 指数
系统为您推荐了相关专利信息
1
一种多维度特征驱动的B2B2C协同推荐方法及系统
协同推荐方法 多维特征数据 协同过滤算法 因子 矩阵
2
一种材料样品的平均原子序数检测方法、系统、介质、设备及产品
背散射电子图像 待测材料 指数 图像分割 样本
3
中医大模型的处理方法和装置
信号编码器 多模态 文本 图像编码器 互联网
4
大规模自主移动机器人集群的分布式调度方法及装置
自主移动机器人 分布式调度方法 周围环境信息 集群 移动机器人执行
5
基于人工智能的合规管理体系动态评估系统及方法
编码向量 文本 语义向量 融合特征 语义特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号