@M1saki 2017-12-14T11:47:17.000000Z 字数 1811 阅读 1855

β_3

软工实践

PM：准备先采用最朴素的做法，去构造文章-标签的 0-1矩阵，以及用户-文章的评分矩阵，然后用余弦计算喜好程度。

感觉又迷了路。。。

先照这个做法的话，分成4块

构造文章-标签的 0-1 矩阵
构造用户-文章评分矩阵
计算相似度（余弦相似性）
推荐

变量说明

$users[i=1:S]$ ：用户集
$articles[j=1:M]$ ：文章集
$features[k=1:N]$ ：已经得到的特征集
：向量，1*N，文章特征向量，初始为全0
- $MA_{j,k}$ ：表示文章 $articles[j]$ 在特征 $features[k]$ 的值
：向量，1*M，用户评分向量，初始为全0
- $MP_{i,j}$ ：表示用户 $users[i]$ 对文章 $articles[j]$ 的评分
：向量，1*N，用户特征向量，初始为全0
- $MU_{i,k}$ ：表示用户 $users[i]$ 在特征 $features[k]$ 的值

预处理文章特征01矩阵

for all articles j = 1 to M
    for all features k = 1 to N
        if (articles[j] 拥有 features[k] 属性)
            MA_{j}[k] = 1;
        else
            MA_{j}[k] = 0;

构造用户-文章评分矩阵

（评分细节待定）
对于某一个用户 $users[i]$ ，在阅读某篇文章 $articles[j]$ 之后，评分为 $score_{i,j}$ ，则 $MP_{i,j} = score_{i,j}$

计算相似度

对于某一个用户 $users[i]$ ：

计算 $users[i]$ 所有评分的均值：

$Avg_{i} = \frac{ \sum_{j \in Scored}MP_{i,j}}{|Scored|}$
其中 $Scored$ 为用户 $users[i]$ 已评分的文章集
计算用户 $users[i]$ 对 $features[k]$ 的喜好程度

$MU_{i,k} = \frac{ \sum(x_k - Avg_{i})}{n}$
这里， $x_k$ 为所有包含 $features[k]$ 且用户 $users[i]$ 已评过分的文章的评分， $n$ 为所有包含 $features[k]$ 的文章的数量
至此，对于用户 $users[i]$ ，得到了一个 1*N 的向量 $MU_{i}$
计算 $users[i]$ 和 $article[j]$ 的相似度

$\cos(i, j) = \frac{\sum(MU_{i,k}*MA_{j,k})}{\sqrt{\sum{MU_{i,k}^2}}*\sqrt{\sum{MA_{j,k}^2}}}$

迷路区

首先是看了学长的建议

如果利用相似推荐的话，那就是对用户特征进行相似分析。比如A与B喜欢的文章里有80%是重合的（重合可以定义为两篇文章相似度阈值超过某个值，而非完全一致），那么可以把A看过但B没有看过的文章推荐给B。当然，在对相似分析的时候也可以采用另外的方法：就像文章中说的，将用户对不同文章的打分拼接为一个向量，利用余弦相似性分析两个用户的相似程度。

也可以直接从文章相似度角度进行分析，比如A看过了一篇文章，觉得它很不错，那么利用余弦相似性的衡量方式，寻找3篇与该文章类似的文章推荐给用户，在这个推荐的过程中也可以加入一些随机变量影响的因素，模仿基因突变的过程，以拓宽用户的兴趣种类。

现在也有用词向量和LSTM模型对文章构造特征向量的，随便Google可以得到一大把，以上供参考。

目前的思路应该是更偏向于文章相似度的角度

参考着去搜了词向量和LSTM模型的相关内容

首先是LSTM模型，参考了理解 LSTM 网络，一路下来半知不解，似乎应用到stardust不是很可能

再是词向量，参考了知乎-词向量（ Distributed Representation）工作原理是什么？和基于词向量特征的文本分类模型研究，感觉和神经网络扯上边似乎现在使用不是很实际。但是在阅读过程中看到TF-IDF算法，好奇去了解了一下

基于内容的推荐这篇文章中介绍的TF-IDF和Rocchio算法似乎可以代入到我们的文章推荐中（？）。基于文中【Item Representation】下对于文章和词典的说明，得到某个词在某篇文章中的权重。根据Rocchio算法，维护用户的profile。现在得到的是，文章用n维的向量表示，用户的profile用n维的向量表示，那么可以考虑余弦相似性的方式，（扫一遍所有文章？）得到与用户属性最相关的k个文章作为推荐返回给用户

β_3

变量说明

预处理 文章特征01矩阵

构造 用户-文章评分矩阵

计算相似度

推荐

迷路区

内容目录

选择主题

预处理文章特征01矩阵

构造用户-文章评分矩阵