@gekeshi 2016-05-04T01:19:44.000000Z 字数 784 阅读 333

Spark Standalone模式安装

Spark standalone Hadoop

Apache Spark 是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark正如其名，最大的特点就是快（Lightning-fast），可比Hadoop MapReduce的处理速度快100倍。此外Spark提供了简单易用的API，几行代码就能实现 WordCount。

实验环境

Spark 1.6.1
Hadoop 2.6.4
JDK7
Scala2.10.2
Ubuntu14.04-64bit
Hadoop伪分布式安装具体过程参照Hadoop伪分布式安装。此处需要在集群中部署Spark。
Scala2.11版本需要重新编译Spark。

安装Spark

解压
此处解压到/home/下
修改配置文件
安装后，需要在 ./conf/spark-env.sh 中修改 Spark 的 Classpath，执行如下命令拷贝一个配置文件：

cp ./conf/spark-env.sh.template ./conf/spark-env.sh

编辑./conf/spark-env.sh（vim ./conf/spark-env.sh)，在最后面加上如下内容：

export SCALA_HOME=/usr/lib/scala-2.10.2
export JAVA_HOME=/usr/lib/jdk1.7.0
export SPARK_MASTER_IP=192.168.229.128  /*master IP*/
export SPARK_WORKER_MEMORY=3g
export MASTER=spark://192.168.229.128:7077

同样的方法，修改slaves文件

master
worker1
worker2

最后将Spark文件夹复制到另外两个节点
3. 检查安装是否成功
访问web界面：http://masternode:8080

Spark Standalone模式安装

实验环境

安装Spark

内容目录

选择主题