Bigflow

Bigflow 是什么?

Baidu Bigflow (以下简称 Bigflow)是百度的一套计算框架, 它致力于提供一套简单易用的接口来描述用户的计算任务,并使同一套代码可以运行在不同的执行引擎之上。

它的设计中有许多思想借鉴自 Google FlumeJava以及 Google Cloud Dataflow,另有部分接口设计借鉴自 Apache Spark

用户基本可以不去关心 Bigflow 的计算真正运行在哪里,可以像写一个单机的程序一样写出自己的逻辑, Bigflow 会将这些计算分发到相应的执行引擎之上执行。

Bigflow 的目标是: 使分布式程序写起来更简单,测起来更方便,跑起来更高效,维护起来更容易,迁移起来成本更小。

目前 Bigflow 在百度公司内部对接了公司内部的批量计算引擎 DCE(与社区 Tez 比较类似),迭代引擎 Spark,以及公司内部的流式计算引擎 Gemini。

在开源版本中,目前仅开放了Bigflow on Spark。

为什么要使用 Bigflow?

在线试用

在线试用网页(passwd:bigflow) 包含了一些简单的例子介绍Bigflow的概念和API用法,同时也可以在线编写Python代码尝试Bigflow的功能,可智能提示。

注:该页面仅提供试用功能,并没有做安全防护,相关机器每隔一段时间会被清空一次,请不要做代码存储等操作。

Bigflow详细文档

Bigflow 主页

快速入门

编程指南

API 参考

编译构建

如何贡献

设计文档

论文

http://jcst.ict.ac.cn/EN/10.1007/s11390-020-9702-3

联系我们

需要加入Bigflow微信技术讨论群的,请加微信号:iacmol 或 himddheart,然后备注一下:加入Bigflow技术讨论群