[关闭]
@linux1s1s 2018-02-02T07:34:59.000000Z 字数 497 阅读 665

Hadoop入门-自带实例 wordcount

Big-Data 2018-02


前篇Ubuntu16.0.4 伪分布式配置 Hadoop 2.6.5完成以后,我们可以进一步熟悉Hadoop,最方便和快捷的姿势是直接使用Hadoop自带实例,统计词频.

启动Hadoop

首先需要启动Hadoop,在终端输入

  1. start-all.sh

HDFS操作

HDFS操作基本上和shell脚本一脉相承,命令行形如

此处输入图片的描述

  1. hdfs dfs -ls #查看目录
  2. hdfs dfs -mkdir /input #在根目录下新建input目录

只需要在常规的shell脚本前加上hdfs dfs - 即可

统计词频

此处输入图片的描述

  1. hdfs dfs -put LICENSE.txt /input #将文件LICENSE.txt放入HDFS文件系统根目录下面的input目录下
  2. hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.5.jar wordcount /input /output
  3. #调用example.jar文件中的wordcount 输入文件在input目录,输出结果在output目录

此处输入图片的描述

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注