[关闭]
@EricaHe 2015-12-24T05:59:40.000000Z 字数 3315 阅读 1647

Understanding Mobile Traffic Patterns of Large Scale Cellular Towers in Urban Environment

论文笔记


作者:Huandong Wang, Fengli Xu, Yong Li, Pengyu Zhang, Depeng Jin

单位:Tsinghua National Laboratory for Information Science and Technology, University of Massachusetts Amherst


Abstract & Introduction

工作内容:
建立了一个城市中的移动网络流量的三维模型——时间、蜂窝塔的地理位置、流量频谱

重要发现:

意义:


Dataset and Visualization

来源:上海的某个ISP提供的匿名数据,从2014年8月1日至8月31日

预处理:

可视化:
移动流量的时间分布:
移动流量的时间分布

移动流量的空间分布:
移动流量的空间分布


Identifying Traffic Patterns of Cellular Towers

问题陈述

下图中,图4是在控制经纬度的情况下,随机选取蜂窝塔后所得到的情况,其中图(a)显示了在同纬度情况下,一天之内的流量情况,而图(b)则显示了在同经度的情况下,一天之内的流量情况
此处输入图片的描述

发现:
根据该图可以发现,红色部分并不是连续的,这表明不同的蜂窝塔的流量峰值时间可能存在显著的不同。
如果ISP对所有情况都一视同仁,采取同样的负载均衡策略,那显然是不能达到最优的运行质量的。

而更进一步,如果将选择区域确定为居民区或者商业区,如下图所示
此处输入图片的描述

这可以证明2件事:

  1. 对于特定类型的区域,其流量峰值几乎是相同的,无论他们是否是同一个区域。
  2. 不同类型的区域间,流量模式的差异是显著的。

从而可以得出结论,特定的流量模式的确是存在的,而现在所需解决的关键问题是——这样的流量模式到底有多少种。

区别流量模式

3个关键元素:Traffic vectorizer、Pattern identifier、Metric tuner

Traffic vecotrizer:对一个月内每个蜂窝塔的数据进行分割,分割为每10分钟1个块,为了后续处理方便,周数希望为整数,所以取28天的数据来构建向量,向量的每个元素都是10分钟内蜂窝塔收到数据的字节数。为了去除蜂窝塔信号强度的影响,使得各个蜂窝塔的数据之间可以互相比较,还必须进行标准化处理,这里采用了Z-score标准化。

Pattern identifier:通过对Traffic vectorizer所产生的向量进行无监督的机器学习——层次聚类。层次聚类的基本思想是,将相邻两个最近的类别聚合为一个新的类别。它首先将所有点都视为1个类,然后不断迭代聚合最相近的2个类,直到满足终止条件为止。这里论文将两个节点间的距离采用了欧式距离的计算方法,并将距离定义为两组对象之间的平均距离。然后设定阈值,即当两个对象间距离大于该阈值时,不进行合并。

Meric tuner:这一步主要解决的问题是如何确定终止条件,在这里,作者使用了Davies-Bouldin指数(DBI)来评估聚类效果,DBI越低,聚类效果越好。通过对不同阈值的测试,可得到下图
此处输入图片的描述

最终可以聚类得到5种不同的类别。
此处输入图片的描述

Geographical Context of Traffic Patterns

为了确定移动流量与地理位置信息的关系,要对聚类得到的5个类别进行标识,但由于数据集包含9600个蜂窝塔,不太可能人工来做标记,于是作者人工标记了一部分,并结合POI(points of interest)分布来进行标记。POI是对于一块地区功能的分布标识,这一数据可从百度地图的API中获得,最终得到数据如下表所示。
此处输入图片的描述
由此可以初步得到每个类别究竟是属于什么类型的地理环境。
为了确认标签的正确性,作者随机抽取了部分样本进行人工确认,同时,也进行了完整的POI分析。不同类型的POI分布在量级上存在巨大的区别,为了消除这一差异,,作者进行了min-max标准化。
此处输入图片的描述

最终得到数据结果如下表


实验结果——时域分析

流量模型在时域上所表现出来的特性:

流量模式的内部关系

第一张图:居民区的峰值比交通区要晚3个小时左右,且两者的斜率类似
第二张图:可以发现,交通区域的谷值与工作区的峰值时间段是一致的
第三张图:综合性区域几乎就是所有区域时间特性的叠加
此处输入图片的描述


实践结果——频谱分析

由于综合性区域在时域上没有明显的特征,所以作者采用了频域分析来分离各种类型区域在这之中表现。
作者对时域谱线进行离散傅里叶变换后得到其频谱。
此处输入图片的描述
从频谱中可以发现,其在k=4,28,56时分别达到峰值,即原本的各类人类活动中存在每周、每天以及每半天的周期性活动。
如果将这几点的能量单独拉出来,将其他部分的能量都记为0,随后做离散傅里叶反变换重新得到处理过后的时域模型,经计算,处理后的时域模型的总能量只比处理前的总能量下降了6%不到,说明主要信息都还保留在处理后的模型中。

此处输入图片的描述

由上图可以看出,处理后的曲线与原曲线也基本重合。

可视化分析

提取所有DFT后每一点的强度和相位:强度表明了对应频率的周期性程度,而相位则代表了不同点的峰值和谷值。
此处输入图片的描述

上图显示了各类流量模式的强度与相位。
从图(a)中可以看出工作区在一周内呈现最强的周期性,其相位主要位于1.35的位置,而居住区与娱乐区的相位则在-1.65,两者大约相差π,这表明两者的峰谷值特性在一周的规格上几乎是相反的。
而在图(b)中则可以发现各种类型的流量类型几乎在相位上是连续的,这显示了一天之中的流量过渡过程,而从常识就可以知道,流量的多少与人群数量是正相关的,所以人的活动过程就是流量峰值的移动过程——从工作区到娱乐区,再到综合区,最后回到家中。
而图(c)则表明了那些一天之中会有2个峰值特性的活动,尤其是上下班的交通高峰,所以交通的强度在半天中是最强的。从图(c)中还可以发现,居民区和工作区的流量并没有被交通区的流量隔开,但这并不意味着这一点与之前的结论相悖,而是由于早上和下午的人们的运动方向是相反的。

此外我们可以得出2个结论:

此处输入图片的描述

如图中所示,所有的类型都聚集在一个多边形的边或面上,这就意味着我们可以通过一定的线性转换来得到任意一点的位置。

对于综合区域的组成分析

正如之前所说,四个特征点的线性组合可以得到任意一点的位置,那么对综合区域而言,所需要做的就是确定其参数。作者使用了标准化的TF-IDF方法来对其进行统计,这原本是用来统计文本中一个字词的重要性的统计方法,在这里,则用于统计各种类型POI对于一个特定类的重要性。
此处输入图片的描述

此处输入图片的描述

此处输入图片的描述

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注