@chanvee 2014-11-17T06:52:02.000000Z 字数 4998 阅读 3259

A survey on predicting the popularity of web content

popularity-prediction

背景介绍

在当今这个数字化信息化的世界中，在线商品（online content）已经成为了一笔非常重要的财富也吸引着很多人的关注，与此同时，随着社交媒体的革新和发展，使得人们淹没在了信息的海洋中。举个例子，每一分钟，全世界有超过300000条推特发表，680000条脸书分享以及100小时总时长的视频被上传到YouTube上。由于在线的生态系统是一个“winner-take-all”（赢即一切）的社会，因此只会有少量的商品会得到关注。在这个背景下，如何确定哪些商品在未来会成为流行的商品就成为了一件非常重要的事了。
这个领域始于对用户浏览网页的模式的研究，研究发现用户对网页的访问服从Zip's的幂律分布，随着网页浏览模式被逐渐理解，人们开始试着预测商品的流行度。第一种预测方法是建立在商品的流行度在其生命周期的各个不同的时间段有着强烈的相关性这个基础上，从而这种方法是建立一个线性回归模型，通过统计商品在其发布后所得到的关注来预测其之后的流行度；而后随着web 2.0平台的流行，提供了大量的用户与在线商品交互的元数据，使得很多基于社交网络的预测方法被提出，此后，人们对不同平台的各类在线商品进行了分析，同时各种用来评价预测结果好坏的评价指标也被提出；另一种重要的解决此问题的方法是通过研究在线商品流行度随着时间演化的模式来进行预测，研究发现许多的在线商品的流行度演化都可以被描述为仅仅少数的几种时态模式，然后针对不同的时态模式在通过预测方法进行预测从而可以得到更好的预测表现；前面提到的几类方法都针对与某一个单一的平台，因此，此领域进一步的突破在于通过跨平台提取跨平台相关（cross-correlate）的信息来设计预测方法。

在线商品的分类

由于存在各种各样的在线网站，因此在线商品的形式也是多种多样的。不同种类的在线商品存在着不同的特征，其适应的预测方法也会不同。

在线视频 在线视频的流行度通常被定义为视频被浏览的次数，这类商品的特点是其生命周期较长，其流行度随时间的变化是高度不稳定的，其分布通常符合指数截断的幂律分布、对数正态分布或伽马分布等。
在线新闻 在线新闻的流行度通常被定义为新闻被评论的次数，这类商品的特点是其生命周期较短，更新较快，其分布通常符合幂律分布或是对数正太分布。
社交书签网站 如Digg、Slashdot等网站的stories，这类商品的更新更快，其分布通常符合长尾的Weibull分布或是对数正太分布。
社交网络服务 这类商品反映的是互联网用户之间的交互关系的商品，如Twitter和微博等，这类商品传播非常之快，同时更新更快，其流行度通常定义为被转发的次数，其分布通常符合幂律分布。

预测模型的评价

在提出评价指标之前，需要定义一些术语：
$C$ 表示在线商品集。
$t_i$ 表示执行预测的指示时间。
$t_r$ 表示想要预测流行度的时间。
$N_c(t_i)$ 表示商品 $c$ 在时间 $t_i$ 的流行度。
$N_c(t_r)$ 表示商品 $c$ 在时间 $t_r$ 的流行度。
$\widehat{N_c}(t_i,t_r)$ 表示利用时间 $t_i$ 之前预测在时间 $t_r$ 的流行度。

数值预测的评价指标

数值预测的评价指标主要是评估对商品流行度具体数值预测的好坏，常用的指标包括一下几个：

M S E = 1 | C | \sum c \in C (N c ˆ (t i, t r) - N c (t r)) 2

$MSE = \frac{1}{|C|}\sum_{c \in C}(\widehat{N_c}(t_i,t_r)-N_c(t_r))^2$

R M S E = 1 | C | \sum c \in C (N c ˆ (t i, t r) - N c (t r)) 2 - - - - - - - - - - - - - - - - - - - - - - - \sqrt

$RMSE = \sqrt{\frac{1}{|C|}\sum_{c \in C}(\widehat{N_c}(t_i,t_r)-N_c(t_r))^2}$

M A E = 1 | C | \sum c \in C | N c ˆ (t i, t r) - N c (t r) |

$MAE = \frac{1}{|C|}\sum_{c \in C}|\widehat{N_c}(t_i,t_r)-N_c(t_r)|$

M R E = 1 | C | | N c ˆ ( t i , t r ) - N c ( t r ) N c ( t r ) |

$MRE = \frac{1}{|C|}|\frac{\widehat{N_c}(t_i,t_r)-N_c(t_r)}{N_c(t_r)}|$

分类评价指标

分类评价指标是用来评估对商品流行度进行分类预测的好坏，比如预测商品在未来是流行还是不流行两类，此时常用的指标则是precision、recall和F-score。由于F-score只针对一类，因此针对分为多类的情形常用macro-average(即F-score对所有分类的平均值)。

在线商品流行度预测方法分类

classification
目前流行度预测的方法的分类主要如上图所示。

Single domain

针对单一网站或平台

Before publication

在商品发布之前则进行预测，这类方法主要是针对的那些生命周期非常短的商品，并主要是对商品的流行对进行分类。这类预测任务可以看做是一个两步的分类问题：一是预测新商品是否会得到评论；而是预测得到的评论量是高还是低。

After publication

Aggregate behavior 这类方法主要通过积累用户在早期对商品的关注来进行商品流行度的预测。
Cumulative growth. 这里提到的第一种方法如下：

N c ˆ = N c ( t i ) P ( t i , t r )

$\widehat{N_c} = \frac{N_c(t_i)}{P(t_i,t_r)}$
其中，

P(ti,tr) $P(t_i,t_r)$ 表示的是商品的流行度从

ti $t_i$ 到

tr $t_r$ 流行度的尺度变化，其表达式如下：

P (t i, t r) = 1 | C | \sum c \in C N c ( t i ) N c ( t r )

$P(t_i,t_r) = \frac{1}{|C|}\sum_{c \in C}\frac{N_c(t_i)}{N_c(t_r)}$
更进一步，Szabo和Huberman他们发现商品的流行度与商品在早期的流行度有一个强烈的正相关，于是他们提出了如下的一个线性回归模型：

N c ˆ (t i, t r) = e x p (l n N c (t i) + β 0 (t i, t r) + σ 2 0 ( t i , t r ) 2)

$\widehat{N_c}(t_i,t_r) = exp(lnN_c(t_i) + \beta_0(t_i,t_r) + \frac{\sigma_0^2(t_i,t_r)}{2})$
对于其中的各项系数，

β0 $\beta_0$ 表示在训练集中对回归函数

lnNc(tr)=β0(ti,tr)+lnNc(ti) $lnN_c(t_r) = \beta_0(t_i,t_r) + lnN_c(t_i)$ 计算最大似然参数估计得到的，

σ20 $\sigma_0^2$ 表示的是残差的方差。
由于此方法在一些数据集上取得了不错的效果，从而又有许多以此为基础的提出了类似的Regression-based methods(基于回归的方法)。
Temporal analysis. 对于生命周期较长的在线商品，采用上述的方法会导致相当大的误差。解决这一问题的方法是能够对不同的用户在新近时期对商品的关注以不同的权重。通常引入向量

Xc(ti)=[xc(1),xc(2),xc(3),...xc(i)] $X_c(t_i)=[x_c(1),x_c(2),x_c(3),...x_c(i)]$ ，

xc(i) $x_c(i)$ 表示商品

c $c$ 在时间段

i $i$ 的流行度，从而

Ncˆ(ti,tr)=∑ij=1xc(tj) $\widehat{N_c}(t_i,t_r) = \sum_{j=1}^{i}x_c(t_j)$ 。由此提出了多变量的线性回归模型。
另一种思路是通过时间序列进行预测，比如说Autorefressive Moving Average(ARMA)，由此一个商品在某一天特定的流行度有下列公式定义：

x c (n) = \sum i = 1 p α i x c (n - i) + ϵ n + \sum j = 1 q θ j ϵ n - j

$x_c(n) = \sum_{i=1}^{p}\alpha_ix_c(n-i) + \epsilon_n + \sum_{j=1}^{q}\theta_j\epsilon_{n-j}$
这种方法的缺陷是对于每一个商品都需要建立一个ARMA模型从而导致很高的计算复杂度。解决这个问题的方法常用的是引入PCA(principle component analysis)，步骤如下：1) 通过PCA找到时间序列的主成分； 2) 再在主成分的基础上运用ARMA模型来计算流行度。
Kong et al. 提出了另一种方法叫做kSAIT(top-k Similar Author Identical historic Tweets)通过推特发布后的第一个小时的信息来预测推特在发布后的一、二、三天的流行度。这种方法的主要思想是：当一个推特发布后，计算这条推特与这个用户有所发布的推特的相似性，然后选取top-k最相似的推特，并取这top-k最相似的推特流行度的平均值作为该推特的流行度。
Popularity evolution trends. 一些研究发现商品的流行度随着时间的演化可以被归为几类时态模式。为了揭示不同的这些时态模式，通常的做法是通过将时间序列进行聚类，将所有的时间序列分为特定的几类时态模式，这样对于一个待预测商品，通过对它的时间序列进行检测，当其属于某一个特定的时态模式时，就可以根据其时态模式进行流行度的预测。
Individual behavior 与前文把每个用户统一对待不同的是，这种方法将根据每个用户不同的行为特征来进行预测。这类方法的一个做法是根据概率模型来预测不同用户可能采取的行为，再根据这些预测行为来预测商品的流行度。

Cross domain

这一类方法是通过跨平台的信息来预测商品的流行度，目前这类方法的研究还较少，只有基于aggregate behavior预测after publication的方法提出，但是从目前这些已有的一些方法的效果来说，确实能够得到提高。这类方法通常是通过机器学习中的一些方法诸如线性回归、svm、随机森立和决策树，在训练集中对某一个平台如推特的一些推文的语义来预测电影平台的评分等。这类方法的有效性在于，当商品相关的信息在许多的网站上快速传播时，通过收集这些平台上的信息可以显著的提高预测的准确性。

商品流行的原因

有前文的分析可知，确定哪些因素可能会导致商品的流行对于预测商品的流行度是非常重要的。通过对现有的一些研究的总结发现：商品所带的情绪(emotion)是一个非常重要的因素，如果一个商品所带有的情绪越激烈或是极端则其更有可能在在线网络中进行传播；商品本身的质量和主题以及地理相关性也与商品的流行度成正相关；另一方面，同一个商品以多种版本出现将会导致商品流行度的降低。此外，还有一些不可知的因素对商品的流行度有着强烈的影响，诸如搜索工具、推荐系统和社交分享应用等；另外现实社会中，一些重大事件的发生也同样会影响商品的流行度。

总结与展望

前文主要是对商品流行度预测问题的简介以及常用方法的介绍，此外还提及到了哪些因素可能导致商品流行。当然商品流行度预测的这个问题还有许多进一步的工作等待展开：
Predicting long-term popularity evolution 目前大部分的研究都是对商品的流行度进行短期的预测，如果我们可以对商品的流行度的长城演化进行预测，那么我们就可以揭露商品在不同时段流行度的变化过程：初始增长，顶峰时段，下降，甚至是流行度的边界。这些信息都能帮助广告商制定相应的策略从而谋取更大的利益。
Building richer models 目前很多模型都是通过收集商品早期的流行度，运用线性回归模型来进行预测，但是其实可针对不同的商品可以建立不同的模型来进行预测。比如根据其概率分布来建立模型，建立实时预测模型，建立递归时间模型，基于真实事件的模型，在线协作模型等。

Markdown原文
 原文链接：Tatar A, de Amorim M D, Fdida S, et al. A survey on predicting the popularity of web content[J]. Journal of Internet Services and Applications, 2014, 5(1): 1-20.