摘要
本发明提供一种跨域文案在线溯源方法和装置,包括:按照数据入库时间对获取的流式增量的互联网文案信息进行时间分片得到每个时间片内的数据,并从时间片内的数据中提取未计算的最早批次数据构成增量数据集;对不同时间片的增量数据集并行处理,在每个增量数据集内建立局部语义簇,并与历史聚类结果进行贪心合并得到聚类结果;引入活跃类动态监测机制,持续追踪聚类结果中成员数量发生变化的活跃类得到溯源结果;将聚类结果和溯源结果存入分布式搜索引擎中。本发明能够准确识别跨领域文案语义关联并且支持海量数据实时高效处理。
技术关键词
溯源方法
分布式搜索引擎
聚类
在线
查询机制
贪心策略
深度优先搜索算法
非暂态计算机可读存储介质
支持海量数据
语义特征
分片
互联网
处理器
溯源装置
文本
计算机程序产品
动态
系统为您推荐了相关专利信息
智能预警方法
设备健康状态评估
设备运行数据
设备运行状态
多源异构数据
在线检测系统
信号调理模块
压力传感器组件
数据处理模块
生物相容性高分子材料