统计是探索大数据的基本工具,在实际应用中,由于数据量巨大,每次计算都需要大量的计算资源、网络资源,同样也付出时间成本,影响了对大数据更深入的分析与理解。
本书作者在过去数年的工作摸索中,从实践中总结提炼出一套完整的统计工具:包括了常用的各种统计量和统计方法,极大地提高了统计计算效率,并具有可复用性,对相关从业人员有一定的参考价值。
大数据丛书(规划中)的一本。作者来自阿里集团数据平台部,直接面对日益增长的海量数据分析与处理需求,有第一手的实践经验。市面上尚无同类书。
提出了一套适合于分布式计算的统计计算方法,通过对一些基础统计量的计算,可获得有关数据集更全面的统计信息,进而可以进行高级的统计分析,例如,区间估计、线性回归、主成分分析等。从统计计算的角度,梳理出一套对大数据分析有实用价值的统计理论,并形成参考代码。