[关闭]
@zhutoulwz 2016-04-09T03:19:27.000000Z 字数 918 阅读 1648

mahout相关操作

mahout hadoop

mahout执行自带例子

  1. mahout运行自带的kmeans算法例子:

    • 先下载样本数据

      1. wget http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data
    • 样本数据上传至HDFS,文件名称为testdata

      1. hdfs dfs -put synthetic_control.data testdata
    • 执行命令

      1. $HADOOP_HOME/bin/hadoop jar mahout-examples-0.10.0-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

      或者在mahout安装目录下(注:此方式样本数据不需要上传到HDFS,需放在当前目录下,名称为testdata

      1. bin/mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
    • 结果
      第一种方式:执行结果在HDFS,在output文件下会有多个clusters,如下图:
      HDFS上的output结果
      第二种方式:执行结果在当前目录下的output文件夹,内容与第一种方式相同

  2. 将HDFS上的mahout运行kmeans算法的结果拉取到本地:

    1. bin/mahout seqdumper -i output/clusters-10-final/part-r-00000 -o /home/wenzhu/out/part-10

    其中,-i参数为HDFS上结果的路径,-o为拉取到本地的保存路径

在hadoop上运行自定义mahout程序

  1. 使用Eclipse打包自定义mahout程序,生成jar
  2. 执行命令,命令格式如下:

    1. mahout hadoop jar jar Mainclass [args...]

    举个例子:

    1. mahout hadoop jar test.jar com.example.TestClass

    其中test.jar是自定义mahout程序jar包,com.example.TestClassMain class,可以不包含参数

参考文章:
1. 用Maven构建Mahout项目

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注