它结合了Apache Arrow-DataFusion库的强大功能和 Spark 分布式计算框架的规模。

Blaze 从 Spark 获取一个完全优化的物理计划,将其映射到 DataFusion 的执行计划中,并在 Spark 执行器中执行本机计划计算。

Blaze 由以下高级组件组成:

Blaze Spark 扩展:将整个加速器连接到 Spark 执行生命周期中。

Native Operators:定义每个 SparkPlan 如何映射到其本机执行对应项。

基于 DataFusion 固有的明确定义的可扩展性,Blaze 可以轻松扩展以支持: