摘要
本发明提供一种图文多模态数据的下载去重方法和装置,在下载图像数据之前,过滤掉下载过的图像链接,减少了重复数据的下载。在下载图像数据之后,计算图像感知哈希值并过滤掉重复的图像数据,然后将具有相同图像链接或图像感知哈希值的图像标签合并成图像标签列表,即减小了数据存储空间,又丰富了图像的标签信息,解决了现有技术中因网络环境中图文多模态数据普遍重复存储导致的储存资源浪费、下载效率度、检索效率低等缺陷,具备良好的应用效果。
技术关键词
多模态
图像感知哈希
图文
去重方法
标签
唯一性
列表
非暂态计算机可读存储介质
数据存储空间
去重装置
模块
处理器
存储器
电子设备
程序
网络
资源