@linux1s1s 2018-02-02T07:34:59.000000Z 字数 497 阅读 1870

Hadoop入门-自带实例 wordcount

Big-Data 2018-02

前篇Ubuntu16.0.4 伪分布式配置 Hadoop 2.6.5完成以后,我们可以进一步熟悉Hadoop,最方便和快捷的姿势是直接使用Hadoop自带实例,统计词频.

启动Hadoop

首先需要启动Hadoop,在终端输入

start-all.sh

HDFS操作

HDFS操作基本上和shell脚本一脉相承,命令行形如

此处输入图片的描述

hdfs dfs -ls #查看目录
hdfs dfs -mkdir /input #在根目录下新建input目录

只需要在常规的shell脚本前加上hdfs dfs - 即可

统计词频

此处输入图片的描述

hdfs dfs -put LICENSE.txt /input #将文件LICENSE.txt放入HDFS文件系统根目录下面的input目录下
hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.5.jar wordcount /input /output
#调用example.jar文件中的wordcount 输入文件在input目录,输出结果在output目录

此处输入图片的描述

Hadoop入门-自带实例 wordcount

启动Hadoop

HDFS操作

统计词频

内容目录

选择主题