摘要
本发明公开一种支持跨中心流计算的流式数据传输方法及系统,属于数据传输技术领域。所述方法包括:将跨数据中心的流计算任务按照数据依赖关系分解为若干个子任务,并将子任务调度到各数据中心执行;在源数据中心生成一子任务的部分或全部的计算结果之后,将该计算结果以Spark Dataframe表示,并根据该计算结果的数据大小和传输需求将Spark Dataframe表示划分为多个分片数据,使用消息队列实现分片数据的跨数据中心传输;目标数据中心读取通过消息队列传输的分片数据之后,重建该计算结果。本发明能够实现跨中心流水线中数据处理连续性和传输实时性,减少等待时间,提高数据处理效率。
技术关键词
数据中心
分片
数据传输方法
计算机程序指令
数据依赖关系
队列
消息
任务调度
计算机程序产品
标识符
流水线
数据传输技术
计算机设备
数据传输系统
可读存储介质
哈希算法
电子设备
处理器