[关闭]
@WillireamAngel 2017-12-24T03:51:14.000000Z 字数 1667 阅读 1389

《智能时代》读后感

大数据


一、现象、数据、信息和知识

  1. 数据
    凡语言文字及人类行为,均可称为数据。数据的概念在不断扩充,数据是文明的基石。
  2. 信息:
    信息是关于世界、人和事的描述,它比数据来的更抽象,信息可以是人创造的,也可以是天然存在的客观事实。

数据和信息的区别:
数据最大的作用就是承载信息,但是并非所有的数据都承载了有意义的信息。数据中隐藏的信息和知识是客观存在的,但是只有具有相关领域专业知识的人才能将它们挖掘出来,这也就是所谓的数据挖掘。
3. 知识
对数据和信息进行处理后,人类可以获取知识。知识是具有系统性的东西,它比信息高一个层次,更加抽象。人类的进步就是靠知识驱动,不断改变生活和周围的世界,数据就是知识的基础。

二、计算机时代的思维方法

  1. 机械思维
    模拟系统,有组织的一系列化学相互作用,自我组织的机电设备,自动化的通用信息处理器以及符号操纵机制的集成集合。
    • 步骤
      (1)整体分解成若干元素;
      (2)对元素研究并理解其属性或行为;
      (3)将元素的理解进行组合,从而达到理解整体的目的。
    • 新创新思维
      (1)发散思维和收敛思维
      (2)形象思维和抽象思维
      (3)逻辑思维和非逻辑思维
      (4)直达思维和旁通思维
  2. 不确定性原理
    在一个量子力学系统中,一个粒子的位置和它的动量不可被同时确定。位置的不确定性和动量的不确定性是不可避免的。
    世界的不确定性来自两方面:我们对世界认知的不断扩充,无法通过简单的公式定理来确定,人为归为不确定性;客观世界本身,量子力学测不准原理。
    在不确定性原理驱动下的世界是建立在概率论基础上的。
  3. 概率论
    概率论主要研究对象为随机事件、随机变量以及随机过程。对于随机事件是不可能准确预测其结果的,然而对于一系列的独立随机事件——例如掷骰子、扔硬币、抽扑克牌以及轮盘等,会呈现出一定的、可以被用于研究及预测的规律,两个用来描述这些规律的最具代表性的数学结论分别是大数定律和中心极限定理。
  4. 香农信息论
    信息熵:
    信息熵

    • 香农定理
      简单地说 就是在有限带宽有、随机热噪音情况下最大传输速率与带宽、信噪比之间的关系
      公式 R=B*LOG2(1+S/N)
      B为带宽 S/N为信噪比
    • 香农第一定理(可变长无失真信源编码定理)
      设信源S的熵H(S),无噪离散信道的信道容量为C,于是,信源的输出可以进行这样的编码,使得信道上传输的平均速率为每秒(C/H(S)-a)个信源符号.其中a可以是任意小的正数, 要使传输的平均速率大于(C/H(S))是不可能的。
    • 香农第二定理(有噪信道编码定理)
      设某信道有r个输入符号,s个输出符号,信道容量为C,当信道的信息传输率R码长N足够长,总可以在输入的集合中(含有r^N个长度为N的码符号序列),找到M (M<=2^(N(C-a))),a为任意小的正数)个码字,分别代表M个等可能性的消息,组成一个码以及相应的译码规则,使信道输出端的最小平均错误译码概率Pmin达到任意小。
    • 香农第三定理(保失真度准则下的有失真信源编码定理)
      设R(D)为一离散无记忆信源的信息率失真函数,并且选定有限的失真函数,对于任意允许平均失真度D>=0,和任意小的a>0,以及任意足够长的码长N,则一定存在一种信源编码W,其码字个数为M<=EXP{N[R(D)+a]},而编码后码的平均失真度D'(W)<=D+a。
  5. 玻尔兹曼熵
    S=klnΩ
    熵永远超不断增加的方向发展,微观上系统越无序,宏观上系统趋于恒温。
  6. 大数据的特征
    特征:数据量大、多维度、完备性。

三、数据安全

数据安全包括两层意思:用户数据不损坏、不丢失;数据不被偷走或者盗用。
保护隐私:靠大数据长期赚钱的必要条件。
实际上用户心理倾向于50%的隐私保护,50%的便利性,但是实际情况是100%便利。一些软件不断地寻求存储和读取联系人的权限,各种平台的实名认证,都是在不断地获取数据来进行牟利。这些数据稍微被用于非常规事项,我们都将在世界中透明。
为了在大数据的同时尽可能地保护隐私,数据从采集到使用都需要双向知情的,数据的采集者和使用者都是同样被监督的,或是行之有效的方法。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注