摘要
本发明公开了一种信息去重方法,属于信息处理技术领域,包括从不同媒体平台获取与指定对象相关的原始舆情数据集;将原始舆情数据集中各条数据进行一次去重处理后,将一次去重处理后的剩余文本内容输入至预设的规则引擎中,确定剩余数据对应的二次去重方式,其中,所述规则引擎计算当前负载信息,基于负载信息的结果确定二次去重方式,包括如果当前负载信息未超过指定负载,基于剩余数据对应来源、以及当前用户指定的处理要求类型确定二次去重方式;基于所述二次去重方式对剩余数据进行二次去重。通过规则引擎采用不同方式去重,能够保证去重的实时性以及提高去重精度。
技术关键词
去重方法
文本
数据
分块
信息处理技术
语义
计算机
可读存储介质
关键词
字符
处理器通信
媒体
索引
存储器
对象
动态
电子设备
平台
指令