[关闭]
@Rays 2017-08-26T02:36:59.000000Z 字数 1681 阅读 2116

LinkedIn被裁定应开放对其公开资料数据的爬取

数据科学 LinkedIn


摘要: 一位美国联邦法官裁定,Microsoft旗下的LinkedIn公司不能阻止第三方Web爬虫爬取其公开资料数据。本文介绍了此次案例的来龙去脉,以及对该裁定的各方意见情况。

作者: Shelby Switzer

正文:

一位美国联邦法官裁定,Microsoft旗下的LinkedIn公司不能阻止第三方Web爬虫爬取其公开资料数据。这一裁定是根据初创企业hiQ Labs针对LinkedIn的诉讼而于8月14日做出的,这次诉讼是在LinkedIn向该初创企业发出一份要求其停止并中断爬取数据的信函后发起的。

hiQ Labs爬取LinkedIn用户资料中的公开可见信息,为企业了解是否雇员有意向离职提供帮助。这类爬取行为违反了LinkedIn的反爬取软件禁令,因此在2017年5月23日,LinkedIn向HiQ Labs发出了信函,要求该公司停止这类爬取行为,并威胁要依据《电脑欺诈和滥用法》(CFAA,Computer Fraud and Abuse Act)而采取法律行为。就此,hiQ Labs发起了对LinkedIn的诉讼,指责LinkedIn具有反竞争行为,侵犯了企业访问公开可用信息的言论自由权利。该初创企业的代理律师指出,hiQ Labs应该并未访问LinkedIn的主要数据源。法官Edward Chen在裁定中,特意呼吁LinkedIn对CFAA做“广泛的诠释”:“如果采纳LinkedIn的行为,那么将对互联网的开放访问产生深远的影响,这是议会在三十年前颁布CFAA时所不愿意看到的结果”。据报道,LinkedIn将对这一裁决提出上诉

对于数据所有者及隐私,以及社会媒体公司对用户公开发表信息的控制程度,该联邦政令的影响重大。HiQ Labs认为,LinkedIn对公共资料获取的限制违反了建立在最高法院最近的一项裁决上的“第一修正案”(the First Amendment),即将社交媒体网站等同于一种“现代公众广场”。Hacker News的一个热议话题显示,社交媒体用户是否将他们公开发布数据等同视作将信息张贴在公开广场上,这依然有待观察。

在本次法庭案例中,涉及了数据隐私问题的另一个意外维度,那就是LinkedIn宣称它想要保护的并非仅是数据本身,而是包括对被更改数据的访问。LinkedIn允许用户公开发表个人资料,默认情况下并不会共享对简历的某些更改。但是hiQ Labs通过大规模抓取可以检测到资料中的更改情况,并使用这些发现情况去告警企业雇主存在潜在的雇员流失问题。虽然有部分用户明白公开发表资料的深层影响,但是大多数用户不可能时刻惦记从数据中可以产生何种洞察,以及这些数据会被如何使用,而有一些他们所不了解的企业却在持续地监测个人资料的更新情况。

Programmable Web网站的主编David Berlind最近评论了该裁定对API经济的影响。他指出,LinkedIn数据的价值并非在于数据本身,而是其后的数据模型。该裁定将允许机器人毫无顾忌地利用这些数据企业,这降低了LinkedIn等产品的整体价值。他进一步提出,该裁定强制企业允许爬虫规避企业发布的API,妨碍了企业去“扩展并理解数据和数据所驱动价值之间的关联性”。

虽然LinkedIn确实提供了一些API,但是看上去很多开发人员并不认为这些API适合自身的需要,因为编程界业已形成了广泛爬取LinkedIn数据的事实。已有提供在Github上的开源爬取库,开发人员可在Stack ExchangeQuora上就相关话题开展交流,商业数据爬取公司也提供了采集LinkedIn数据的教程。在2016年,该Microsoft旗下的公司发起了一次针对一百个匿名爬取数据机器人用户的诉讼,所涉及的机器人意图通过伪造的用户账号访问非公开的简历数据。值得注意的是,LinkedIn非常支持白名单服务提供商(如搜索引擎)的爬取行为。

查看英文原文: LinkedIn Ordered to Allow Scraping of Public Profile Data

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注