大数据时代
读书笔记 数据
”Data Is New resource code“——陆奇
未认识大数据的人往往以为这是一门高深的学问,必然蕴含艰深的道理和技术,然而大数据实际上是一个酒瓶装新酒的概念。所谓的大数据,其实就是将一些算法结合海量的数据来预付某些事情发生的可能性,其实每个人的生活中都能遇到这样的应用场景,比如这两年风头正劲的今日头条的新闻,就是一款基于数据挖掘的推荐引擎产品,它为用户推荐有价值的、个性化的信息。
《大数据时代》一书,便是关于大数据的科普类读物,如果你对大数据感兴趣,这本就是入门的佳作,它会详实地向你描绘大数据的本质,包括大数据时代到来的缘由以及数据所造成的风险。当然,也由于本书的定位是一本科普类读物,所以在整体行文上比较啰嗦,有的章节处于可读可不读的尴尬境地。所以,如果你只追求对大数据概念的理解,大可只读本书的前4章节(包括引言),但如果想理解大数据时代整个社会的影响,推荐剩余章节可以泛读。以下是我所做的读书笔记,有兴趣的可以参考自己的知识体系来选择重读或者轻读这本书:
00 引言
1. 大数据时代为何到来?
存储数据的增长速度以及计算机处理能力的增长速度大大提升,前者意味着数据量,后者意味着对数据的处理能力
2. 大数据的作用?
能帮助我们预测未来,也就是运用数学算法到海量数据上来预测某些事情发生的可能性
01 更多
1.小数据时代
1)背景
2)随机采样
- 小数据时代背景下的数据分析方法
- 目的:最少数据获得最多信息
- 特点:
由于数量少,对数据的精确性要求很高
采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大
- 局限性:
无法回答采样时未考虑的问题(数据收集不全)
在更深层次的细分领域,随机采样偏差会越来越大(?)、
通常情况下数据采集是非实时的,所有数据分析也是非实时的
3)大数据时代
- 数据样本:全量,全量数据并非绝对意义上的大(如相扑比赛的数据还比不上一张高清照片)
- 特点:
可以做到实时分析,因为数据采集是实时的
可以深入到更深层次的细分领域
4)知识:多样性具有额外价值
02 更杂
1)为什么大数据允许不精确?
- 背景:搜集的数据量增大会导致错误率增加、格式混乱(无法实现精确性),但这种错误不是大数据固有特性,而是目前的现状,在这种情况下试图提高数据精确度往往会得不偿失
- 充分条件:
大数据本身是表述一件事发生的概率,不追求绝对精确的结果
包括错误数据的大量数据仍能创造优于少量精确数据的结果
2)数据与算法的关系
- 大量数据的简单算法会优于少量数据的复杂算法,这意味着有时数据比算法更重要(微软语法检查、谷歌翻译)
3)混杂性
- 我们应该接受混杂性,因为混杂性能为我们带来更多的数据,并能创造更优的结果
- 非关系型数据库:这类数据库为混杂/不齐整的数据提供存储以及处理的解决方案,并能大大提升处理效率
- 关系型数据库:无法处理混乱的数据,当数据量增大时,无法做到同步更新
4)知识:hadoop
03 更好
1)相关关系
- 定义:两者之间存在关联,一者的变化会引起另一者的变化
- 核心:量化两个数据值之间的数理关系
- 关键:找到合适的关联物(飓风和蛋挞)
2)寻找相关关系的方法
- 传统:假设——确定关联物——收集数据——验证
- 现在:搜集数据-得出所有可能-确定关联物
3)相关关系&因果关系
- 因果关系是一种特殊的相关关系
- 相关关系能帮助人们解决因果关系问题
04 数据化
1)数据化&数字化
- 数据化:这是指一种把现象转变为可制表分析的量化形式的过程
- 数字化:把模拟数据转化成用0和1表示的二进制码
2)一切皆可数据化
- 世界本质上是由信息构成的
- 物联网:把生活中的一切事物数据化
05 价值
1)数据的“潜在价值”
2) 如何使用数据
- 数据地再利用(将作为一次性使用的数据用在其它场所)
- 数据地组合(将多种数据组合在一起,如将手机数据以及癌症数据组合)
- 数据地扩展(将用作单一途径的数据用作它途,如便利店地监视器可以改进便利店地布局;在收集数据时尽可能多地收集各类信息)
- 数据的折旧值(随着时间,数据的价值会有所下降,如短期兴趣与长期兴趣的区别)
- 数据废气(人们在网上留下的数字轨迹,如facebook发现人们会有所行动的指标是发现他们周围的朋友也在这样做)
- 开放数据
3) 认识数据价值
06 角色定位
1) 三种角色
- 数据:对数据的拥有
- 技术:对数据的分析(数据中间商)
- 思维:对分析结果的应用
- 类似公司:亚马逊、谷歌
2) 专家与数据分析师
- 专家:因果关系
- 数据分析师:相关关系(不受传统观念影响,更能倾听数据的声音)
3) 企业在该时代的定位
- 大企业:数据持有者,占据规模优势
- 中企业:危机重重?
- 小企业:更灵活,同时大数据的应用对资源的要求比较低
07 风险
1) 个人隐私的泄露
2) 数据的二次利用(三大隐私保护策略)
- 告知和许可:数据的二次利用导致了在收集数据时所做的告知和许可没有意义
- 模糊化:??此地无银三百两
- 匿名化:数据内容的交叉检验
3) 预测与惩罚
- 通过数据预测犯罪行为进而惩罚该类行为所导致的悖论,人们是否该为自己未犯的错负责?
4)数据独裁
08 掌控(略)