@zhengyuhong 2015-04-19T02:02:38.000000Z 字数 440 阅读 1044

distributed computation

hadoop spark mpi

　　Hadoop适合用于数据密集型但对时间要求不高的场景（长时间的大规模离线计算，如log分析），而机器学习里面常常面临迭代问题，Hadoop在这种迭代算法面前十分力不从心（主要受到网关带宽和磁盘IO瓶颈限制），于是有了Spark这种RDD全内存式的计算模型。Spark适合于机器学习的迭代计算场景（当然它底层也是可以配合Hadoop的HDFS的），计算效率较高，但是是以吃内存为代价的。
　　Spark相较于一般Mapreduce最大的优势在于数据的迭代操作。其实机理很简单，就是把要处理多遍的数据始终放在内存当中，减少IO，最大化效率，在实验中，效率的提升最高可达10 - 20倍。这一点在很多机器学习的算法当中非常有用，比如Page Rank, Logistic regression 等等。当然，这是以牺牲内存占用为代价的，如果你要处理的数据集过大，根本放不进内存，那spark就没有用武之地了。
基于内存的集群计算容错抽象

内容目录

- - BeautifulSoup 1
  - BeautifulSoup
- - Boost 7
  - chrono
  - unordered_set
  - unordered_map
  - memory
  - regex
  - mutex
  - thread
- - C 2
  - sstream
  - 跟我一起写Makefile读书笔记
- - C++ 6
  - sstream
  - fstream
  - 跟我一起写Makefile读书笔记
  - Effective STL
  - Effective C++
  - 深入探索C++对象模型
- - C++11 18
  - bind
  - chrono
  - fstream
  - tuple
  - array
  - forward_list
  - unordered_set
  - unordered_map
  - memory
  - random
  - initializer_list
  - regex
  - future
  - mutex
  - move forward
  - ref
  - function
  - thread
- - DL 1
  - Note for ML,NN,DL
- - Hadoop 1
  - Hadoop技术内幕
- - LevelDB 1
  - leveldb
- - ML 1
  - Note for ML,NN,DL
- - Mikolov 1
  - Tomas Mikolov Paper note
- - MySQL 1
  - Linux下 SQLAlchemy 连接 MySQL
- - NLP 1
  - NLTK笔记
- - NLTK 1
  - NLTK笔记
- - NN 1
  - Note for ML,NN,DL
- - NoSql 1
  - redis入门指南
- - Pocket 1
  - Pocket Developer API 应用
- - Python 9
  - Python反射（自省）
  - 编写高质量代码-改善Python程序的91个建议
  - pymongo
  - NLTK笔记
  - gensim笔记
  - toolkit
  - scikit-learn笔记
  - Python核心编程（第二版）
  - Python基础教程(第2版)
- - SQLAlchemy 1
  - Linux下 SQLAlchemy 连接 MySQL
- - SSDB 1
  - SSDB
- - STL 19
  - bind
  - chrono
  - fstream
  - tuple
  - array
  - forward_list
  - unordered_set
  - unordered_map
  - memory
  - random
  - initializer_list
  - regex
  - future
  - mutex
  - move forward
  - ref
  - function
  - thread
  - Effective STL
- - Tutorial 1
  - Cmd Markdown 公式指导手册
- - boost 1
  - boost
- - code 2
  - public/common
  - baidu-rpc
- - db 5
  - Linux下 SQLAlchemy 连接 MySQL
  - SSDB
  - leveldb
  - MongoDB
  - Redis
- - embedding 1
  - Tomas Mikolov Paper note
- - flask 1
  - flask
- - g++ 1
  - GCC技术参考大全
- - gcc 1
  - GCC技术参考大全
- - gensim 1
  - gensim笔记
- - git 2
  - git
  - 在linux下搭建git github开发环境
- - github 1
  - 在linux下搭建git github开发环境
- - hadoop 1
  - distributed computation
- - linux 10
  - Linux编译安装pip
  - vim插件管理器
  - GCC技术参考大全
  - 在linux下搭建git github开发环境
  - 跟我一起写Makefile读书笔记
  - pymongo
  - Shell脚本学习指南
  - toolkit
  - Linux命令记录
  - Linux私房菜基础学习篇（第三版）
- - makefile 1
  - 跟我一起写Makefile读书笔记
- - mongo 1
  - 面向文档MongoDB数据库入门教程
- - mongodb 2
  - pymongo
  - MongoDB
- - mpi 1
  - distributed computation
- - note 2
  - Note for ML,NN,DL
  - Tomas Mikolov Paper note
- - paper 1
  - Tomas Mikolov Paper note
- - pip 1
  - Linux编译安装pip
- - posts 7
  - C++与Python
  - C++单例模式
  - tornado
  - python
  - git
  - pymongo
  - scikit-learn笔记
- - python 6
  - Pocket Developer API 应用
  - requests
  - BeautifulSoup
  - flask
  - tornado
  - web.py
- - redis 2
  - redis入门指南
  - Redis
- - requests 2
  - Pocket Developer API 应用
  - requests
- - shell 1
  - Shell脚本学习指南
- - spark 1
  - distributed computation
- - sstream 1
  - sstream
- - tool 1
  - gensim笔记
- - toolkit 1
  - toolkit
- - tornado 1
  - tornado
- - vim 1
  - vim插件管理器
- - web 1
  - web.py
- - wiki 3
  - Python反射（自省）
  - C++单例模式
  - sys/time.h
- - 书签 1
  - 书签
- - 数据挖掘 4
  - toolkit
  - scikit-learn笔记
  - 数据挖掘导论
  - 统计学习方法
- - 文本挖掘 1
  - NLTK笔记
- - 机器学习 3
  - toolkit
  - scikit-learn笔记
  - 统计学习方法
- - 百度 1
  - 百度实习生电话面试
- - 笔试 1
  - 王道程序员求职宝典读书笔记
- - 自然语言处理 1
  - 统计自然语言处理（第2版）
- - 读书笔记 15
  - 软件架构设计
  - 跟我一起写Makefile读书笔记
  - Shell脚本学习指南
  - 程序员的自我修养-链接、装载与库
  - redis入门指南
  - 统计自然语言处理（第2版）
  - Python核心编程（第二版）
  - Hadoop技术内幕
  - Python基础教程(第2版)
  - 数据挖掘导论
  - Effective STL
  - Effective C++
  - 统计学习方法
  - 王道程序员求职宝典读书笔记
  - 深入探索C++对象模型
- - 面试 2
  - 百度实习生电话面试
  - 王道程序员求职宝典读书笔记
- 以下【标签】将用于标记这篇文稿：
选择主题
- 经典白
- 护眼黄
- 薄荷绿
- 东京夜
- 经典黑

添加新批注

在作者公开此批注前，只有你和作者可见。

私有
公开
删除

回复批注