@HUST-SuWB
2015-04-19T06:33:28.000000Z
字数 1354
阅读 375
读书笔记
【Rajaraman A, Ullman J D. 大数据: 互联网大规模数据挖掘与分布式处理[J]. 2012.】
例如,各类传感器(温度传感器、距离传感器等)都会以一定的频率实时的反馈数据,这些数据如果积累一定的时间就不可能全部放进内存。这时,就必须要考虑哪些数据要存放在工作存储器而哪些数据只能放在归档存储器中。
卫星往往每天都会给地球传回多个太字节的图像流数据。监控摄像机也类似,数据巨大的摄像机能够连续不断的产生图像流。
互联网当中的交换节点从很多输入源接收IP包流并将它们路由到输出目标。Web网站受到的流包括各种类型。如谷歌一天能收到几亿个搜索查询,雅虎的各个不同网站上受到数十亿个“点击”。
一个需要解决的一般性问题是从流中选择一个子集,以便能够对它进行查询并给出统计性上对整个流具有代表性的结果。具体例子如下:搜索引擎收到查询流,这些数据可以用于研究典型用户的行为。假定这个流由三元组
两个思路。第一,对每个搜索查询产生一个随机数(比如0~9中的一个整数),并当且仅当随机数为0时才存储该元组。这样,大数定律可以保证当查询数目足够多的时候,大部分用户所存储的查询比例会非常接近
假定抽样之后的样本规模为a/b,那么久可以将每个元组的键值哈希到b个桶中的一个,然后将哈希值小于a的元组放入样本。
一个布隆过滤器由如下几个部分组成:
1. n个位组成的数组,每个位的初始值都为0。
2. 一系列哈希函数
3. m个键值组成的集合S。
布隆过滤器的目的是让所有键值在S中的流元素通过,而阻挡大部分键值不在S中的流元素。
如,位数组的所有位的初始值为0。对S中的每个键值K,利用每个哈希函数进行处理。对于一个哈希函数