@HUST-SuWB 2015-02-05T09:31:56.000000Z 字数 1585 阅读 450

软件开源，数据开放

读书笔记

【徐子沛. 大数据[J]. 2012.】
徐子沛的这本书最近很火，不免俗得我也买来看了看。这本书的主体内容可以概括为：它以数据为轴线，描绘了美国走过的开放创新历程。从该历程中我们看到，数据挖掘是一种知识生产过程，从中产生创新，产生管理，产生推动社会变革的理论与实践。更有意思的是，美国政治的发展，公民权利的实现，以及各种自由与福利的报账，都和对数据的创造性应用密切相关。（出自郭巍青）
先提供一张书上的表格，对大数据有个形象的理解。

单位	英语标识	大小	含意和例子
位	Bit	1或0	计算机用二进制存储和处理数据，一位是指一个二进制数位：0或1，这是存储信息的逻辑单元
字节	Byte	8位	这是计算机存储信息的基本物理单位，存储一个英文字母在计算机上，其大小就是一个字节
千字节	KB	1024字节，或2^10个字节	一页纸上的文字大概是5千字节
兆字节	MB	2^20个字节	一首普通的MP3格式的流行歌曲大概是4兆字节
吉字节	GB	2^30个字节	一部电影大概是1吉字节
太字节	TB	2^40个字节	美国国会图书馆所有等级的印刷版书本的信息量为15太字节，截止2011年年底，其网络备份的数据量为280太字节，这个数据还在以每个月5太的速度递增
拍字节	PB	2^50个字节	美国邮政局一年处理的信件大约为5拍，各个每个小时处理的数据为1拍
艾字节	EB	2^60个字节	相当于13亿中国人人手一本500页的书加起来的信息量
泽字节	ZB	2^70个字节	截止2010年，人类拥有的信息总量大概是1.2泽字节
尧字节	YB	2^80个字节	超出想象，难以描述

对于这么大的数据量和无时无刻的数据增长，我们能做什么，要做什么，都带给了很多人无限的想象。近几年大数据的火热也从侧面证明了不管是巨头科技公司还是普通民众对于大数据的热捧确实是由于它所蕴含的巨大价值。而这本书给我的最大的感触就是：“我们正处于软件开源-数据开放的时代”。
开源的意义就在于开放源代码、信息共享和自由使用。开源软件是一种源代码可以任意获取的计算机软件，这种软件的版权持有人在软件协议的规定之下保留一部分权利并允许用户学习、修改、增进提高这款软件的质量。在国外，开源运动已经开展了很多年，最近就连以往对开源非常抵制的微软在开源领域也频频的有动作，office套件开始在ios和android平台上使用，Visual Studio Community 2013开始免费，甚至.NET核心的执行引擎CoreCLR也开源了。可见，软件开源逐渐被证明是大势所趋。
而所谓的数据开放，也已经在书中被阐述了很多，美国发展至今的种种过程就是美国社会不断走向数据开放的过程。税务、矿产、医疗、金融、天气等各种数据在隐私与开放中不断的博弈，而数据的不断开放，也让美国政府部门越来越受到民众的监督，就这样，美国的政府走向了更加民主与开放的道路。
大数据技术和业务的兴起，引发了社会对数据开放的强烈需求，2012年5月美国发布数字政府战略，其中关键的就是政府必须保证美国民众可以随时随地通过任何平台或设备获取政府信息和公共服务，这种数据的集中、开放、共享及对数据的应用支持，极大地方便了美国各界对大数据的利用。据统计，通过数据开放，2013年美国在政府管理、医疗服务、零售业、制造业、位置服务、社交网络、电子商务七个重点领域产生的潜在价值已经达到了2万亿美元。
我们应该庆幸处于如今这个软件开源，数据开放的社会，数据就是价值。而能从广阔的互联网数据中挖掘到什么价值，就看每个人自己的能力了。

PS：书中提供的几个数据提供的网址，从中可以获取到大量的数据，可以查阅，也可以用于做大数据分析。
美国国家开放数据：http://www.data.gov/
英国国家开放数据：http://data.gov.uk/
香港开放数据：http://www.gov.hk/en/theme/psi/datasets/

软件开源，数据开放

内容目录

选择主题