它结合了Apache Arrow-DataFusion库的强大功能和 Spark 分布式计算框架的规模。
Blaze 从 Spark 获取一个完全优化的物理计划,将其映射到 DataFusion 的执行计划中,并在 Spark 执行器中执行本机计划计算。
Blaze 由以下高级组件组成:
Blaze Spark 扩展:将整个加速器连接到 Spark 执行生命周期中。
Native Operators:定义每个 SparkPlan 如何映射到其本机执行对应项。
基于 DataFusion 固有的明确定义的可扩展性,Blaze 可以轻松扩展以支持: