一种基于增量式计算及特征聚类的数据去重方法、系统及电子设备

AITNT
正文
推荐专利
一种基于增量式计算及特征聚类的数据去重方法、系统及电子设备
申请号:CN202510504342
申请日期:2025-04-22
公开号:CN120470241A
公开日期:2025-08-12
类型:发明专利
摘要
本发明公开了一种基于增量式计算及特征聚类的数据去重方法、系统及电子设备,包括:实时接收来自多源异构的文本、图像、音频及视频数据流,对每个数据单元附加时间戳,生成带时间属性的输入数据集;对所述输入数据集进行多模态特征提取,通过滑动窗口模型和时间衰减因子对提取的多模态特征的特征权重进行动态调整,以得到带权重的增量特征向量集;基于所述特征向量集执行两阶段聚类,生成多个细粒度的数据簇;采用复合相似度模型对每个细粒度数据簇的簇内数据进行两两比对,以确定出簇内重复数据,根据簇内重复数据对输入数据集进行数据去重,以得到去重后的输入数据集。本申请的方法提高了对实时数据的处理效率,显著降低了存储与计算成本。
技术关键词
数据去重方法 模态特征 滑动窗口 两阶段 计算机执行指令 带时间 多模态 数据去重系统 聚类 关键帧内容 算法 存储系统 动态 灰度共生矩阵 文本 音频 颜色直方图 电子设备 因子
系统为您推荐了相关专利信息
1
一种基于两阶段特征提取的可解释性轴承故障诊断方法
轴承故障诊断方法 卷积神经网络模型 时域特征 频域特征 两阶段
2
一种工厂生产智能监督管理方法及其系统
监督管理方法 波动特征 基元 嵌套 语义向量
3
基于多项式回归与神经网络的碳排放趋势预测方法
回归分析方法 趋势预测方法 DBSCAN聚类算法 多项式 数据处理框架
4
一种面向复杂跨域环境下的大文件快速传输方法及系统
文件快速传输方法 节点 时间滑动窗口 网络 数据中心
5
配电台区线损的归因确定方法、装置、设备、介质及产品
仿真模型 计算机执行指令 归因 线损 处理器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号