摘要
本发明公开了一种基于增量式计算及特征聚类的数据去重方法、系统及电子设备,包括:实时接收来自多源异构的文本、图像、音频及视频数据流,对每个数据单元附加时间戳,生成带时间属性的输入数据集;对所述输入数据集进行多模态特征提取,通过滑动窗口模型和时间衰减因子对提取的多模态特征的特征权重进行动态调整,以得到带权重的增量特征向量集;基于所述特征向量集执行两阶段聚类,生成多个细粒度的数据簇;采用复合相似度模型对每个细粒度数据簇的簇内数据进行两两比对,以确定出簇内重复数据,根据簇内重复数据对输入数据集进行数据去重,以得到去重后的输入数据集。本申请的方法提高了对实时数据的处理效率,显著降低了存储与计算成本。
技术关键词
数据去重方法
模态特征
滑动窗口
两阶段
计算机执行指令
带时间
多模态
数据去重系统
聚类
关键帧内容
算法
存储系统
动态
灰度共生矩阵
文本
音频
颜色直方图
电子设备
因子
系统为您推荐了相关专利信息
轴承故障诊断方法
卷积神经网络模型
时域特征
频域特征
两阶段
回归分析方法
趋势预测方法
DBSCAN聚类算法
多项式
数据处理框架
文件快速传输方法
节点
时间滑动窗口
网络
数据中心