摘要
本申请提出一种基于并行排序优化日志采集方法及系统,具体包括:(1)数据采样:从不同日志源头收集日志数据,将日志数据传输到数据处理节点,并使用面向大数据的可扩展正则采样方法,从日志数据中获取代表性样本;(2)并行排序:将上述代表性样本按照一定规则分配到系统中的多个节点上,在每个节点上利用并行排序算法对日志数据进行排序;(3)并行写入:将排序好的日志数据代表性样本并行采集到文件系统中;(4)监控和优化:通过效验文件和检查工具实时监控文件系统的空间利用率,定期检查日志数据的完整性。本发明采用面向大数据的可扩展正则采样方法对日志进行预处理与采样,并且利用并行排序技术对日志数据进行高效收集操作。随后,采样得到的日志样本数据将被分配至多个处理节点,以实现并行的排序操作。本发明通过分散样本存储和处理任务到各个进程进行排序,并对枢轴元素迭代更新,从而提高并行效率,减少因数据分布不均而导致的处理瓶颈,提升日志管理系统的整体性能和可靠性。
技术关键词
日志采集方法
日志采集系统
样本
面向大数据
进程
收集日志数据
枢轴
文件系统
负载均衡数据
采样模块
采样方法
序列
检查工具
排序算法
节点
元素
日志管理系统
排序技术