[关闭]
@evilking 2017-10-15T02:31:55.000000Z 字数 914 阅读 979

大数据平台篇

学习导读

为什么要学习大数据平台开发

目前市面上普遍使用的数据分析工具有R,SAS,SPSS,PYTHON,MATLAB等工具,但是这些工具除了 python 外只适合用于分析,由于这些语言要么是只提供图形化的界面,要么就是对大数据执行效率比较慢,并不适合上生产,而 python 尽管数据分析方面的包越来越丰富了,但相比于专业的统计分析语言来说,还略有不足;

所以当我们做完模型后,国内的数据分析师一般需要自己用工程上的编程语言(比如JAVA)将模型翻译成生成环境上的语言;

随着大数据时代的来临,越来越多的公司将历史业务数据迁移到大数据平台上,并且分析工作一般也需要使用大数据平台工具,这就需要数据分析师除了掌握分析建模能力外,还需要对基本的大数据平台开发有些基本的了解;

数据分析师需要对大数据平台上的开发技能掌握的程度,视所在公司组织架构而定:

要学习那些内容

本系列的内容希望读者能对常用的大数据平台工具(如Hadoop,Hive,Hbase,Spark)有个基本的了解,掌握它们的基础开发技能,同时能对Spark的MLlib包的使用熟悉

如何学

我们用大数据平台是为了用大数据平台工具做分析,所以重点关注在数据处理这块

这部分主要以示例代码的形式展示给读者如何使用大数据平台来开发

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注