@spiritnotes
2016-02-23T04:55:35.000000Z
字数 491
阅读 2228
《Spark高级数据分析》
Spark
读书笔记
补充材料:https://github.com/sryza/aas
第1章 大数据分析
1.1 数据科学面临的挑战
- 成功的分析中绝大部分工作是数据预处理;
- 迭代与数据科学紧密相关;
- 构建完表现卓越的模型不等于大功告成;
1.2 认识Apache Spark
Spark是一个开源框架,作为计算引擎,它把程序分发到集群中的许多机器,同时它提供了优雅的编程模型。
- Spark继承了MapReduce的线性扩展和容错性;
- Spark可以执行更通用的有向无环图(DAG)算子;
- Spark扩展了前辈们的内存计算能力;弹性分布式数据集(RDD)抽象使开发人员将流水处理线上的任何点物化在跨越集群节点的内存中;Spark非常适合用于涉及大量迭代的算法;同时也适用于反应式应用;
- 通过将预处理到模型评价整个流水线整合在一个编程环境中,Spark大大加速了开发过程;
- Spark的内存缓存使它适应于微观和宏观两个层面的迭代计算;
- Spark在探索型分析系统和操作系统型分析系统之间搭起了一座桥梁;
- Spark紧密集成Hadoop生态圈里的许多工具;
第2章 用Scala和Spark进行数据分析