Towards Understanding the Advertiser's Perspective of Smartphone User Privacy
论文笔记
作者:Yan Wang, Yingying Chen, Fan Ye, Jie Yang, Hongbo Liu
单位:Stevens Institute of Technology, Stony Brook University, Florida State University, Indiana University-Purdue University Indianapolis
来源:ICDCS'15
Introduction
Goal:
了解从泄露的信息中,广告商到底能够知道多少用户的信息,尤其是社交关系。
Contribution:
- 对谷歌应用市场下的19个类别中的200个应用进行了人工分析,发现一些主要的广告商能够在短时间内从用户中获取到大量信息
- 对社交关系的推断进行了建模,构建了一个3层的框架来进行推测,并且实施了为期1个月的实验,对象包括家庭关系、同事关系、好友关系等等,发现90%以上的关系都能够被广告商推测得到
- 作者进一步构建了2个模型——Activeness Based Profile和Probability Based Profile
Approach

Run-Time Privacy Leakage Study:
从190个应用中,搜集隐私泄露的频率、目标地址和类型。
Privacy Leakage Modeling:
这里引入了一个叫Connection的概念,意指两名用户之间存在有共同的一些泄露数据。
Run-Time Privacy Leakage Study
数据选取:
Google Play中19个类目下最流行的10个应用,共190个
方法:
- 开发了一个具有部分TaintDroid功能的工具,用于追踪记录应用隐私泄露的情况,部分应用在测试过程里出现崩溃的现象,最后成功收集的共145个。
- 一次测试4-5个应用,一天里测试3次,早中晚各一次,每次仅仅只安装一个应用进行测试,以规避应用之间的互相影响
发现:
- 97/145个应用泄露了用户的隐私数据,包括地理位置(GPS、网络定位)、Wifi接入点的SSID列表、通讯录、手机号、IMEI、加速器数据。
- 从所有这些应用中,发现了22个目标地址接收来自不止一个应用的数据。

- 地理位置(71)和IMEI(61)分别是最常泄露的数据。28个应用在5分钟里发送了10次以上的用户数据,7个应用泄露了4种以上的数据,其中有3个甚至泄露了所有的7种数据。

- 天气类是最频繁泄露用户数据的应用,其次是社交类。
User Privacy Leakage Modeling and Experimental Study
Privacy Leakage Modeling
Connection:
这一关系可以从
- 通讯录
- Wi-Fi Access Point list
- GPS定位
- 网络定位
等方面得到。

Experimental Study
实验对象:
10名学生志愿者及其家庭成员,其中关系包括同事、合作者、同班同学、朋友和家人。
实验方法:
给志愿者们每人一部安装有作者自己开发的工具(检测隐私泄露情况)的手机,手机上安装有最流行的10个应用,并要求志愿者一天至少使用3次这部实验手机,而至于使用哪些应用则没有进行要求。
实验时长共1个月。
实验结果:
User Connection Derivation:

Definition of Two Types of Social Relationships:
- Fact Based Relationship:拥有相近的时空联系的关系(如同事、同班同学、室友、家人)
- Intelligence Based Relationship:不具备时空上稳定联系的关系(如好友)
Making Inference based on Thresholding:
同事:在工作时间段存在联系
家人:在早上和深夜的时间段
朋友:工作时间结束后和周末
在实验中,共存在有10对同事关系、5对合作者关系、1对家人关系、2对同班同学关系和3对好友关系,总共18段关系,15段是facts-based,还有3段是Intelligence-based。
仅仅只是利用这样简单的分类,广告商就能够得到90%以上的关系信息。
Deriving Privacy Leakage User Profiles:
- Activeness Based Profile:
- privacyleakage probability model:

- frequency of type i privacy leakage:

- Categorization:

- Probability Based Profile:
- average probability:

- leakage probability of a category:

- profile privacy leakage rate:

Social Relationship Inference Leveraging Privacy Leakages
数据集:Foursquare trace、MIT trace
Inference Accuracy:

Community Correlation:

Discussion/Limitation
- More Types of Private Data
- Large Scale Evaluation
- Insufficient Metadata
- More Advanced Inference Algorithms