@xialu
2017-10-20T12:36:39.000000Z
字数 841
阅读 1009
结论:新闻可以根据ctr的分布大致分为两批,一批ed量较大,其ctr表现连续。一批ed量较小,总数量大,属于长尾新闻,其ctr表现离散。可以使用ed=160作为这两批数据的临界点。
下面用四张图说明结论产生的过程,数据取自20170801一天的点击数据
来源:
hdfs:/user/tiziano/news/logs/20170801/
news01:/home/bo.wang/news_message/zset_china_new_consumer_20170801.log
处理:过滤了ctr>1的数据(量较少,可以忽略)。
如下为图1,x轴为ctr,y轴为该ctr出现的频率,折线图,对于很多ctr,由于其分布是连续的,单个ctr频率接近1,表现为贴近x轴的横线,在图中不明显。另外一些ctr,频率远远高出,在图形中为凸起的高峰。
图2同图1,我们用颜色区分了两批不同的新闻,绿色表示ed小于160的新闻,红色表示ed大于160的新闻。可以发现这两批的新闻的ctr分布特点完全不同。
ed较小的新闻,由于分子分母取值数少,ctr会离散的集中在某些高峰上,尤其是出现了非常多为1的ctr。
进一步我们发现对于ed大于160的新闻,其单个ctr值最大频率不超过20。为了便于观察,截取图2中频率小于20的ctr,放大可以得到图3,散点图。可以发现对于ed较大的新闻,其ctr分布连续,频率较小。
由以上得到结论:已有的新闻可以根据ctr的分布大致分为两批,一批ed量较大,其ctr表现连续。一批ed量较小,总数量大,属于长尾新闻,其ctr表现离散。以上的分析中使用ed=160作为这两批数据的临界点。
画出图4,x轴从左到右,为ed由小到大,画出了两条线。蓝线y轴为累计新闻数量占新闻总数量的比例。红线y轴为累计ed数量占总ed量的比例。由该图可知,取ed=160时,截取了较大数量的长尾新闻,其ed量占总量的比值较小。因此可取ed=160作为这两类新闻的临界点。
