@M1saki 2017-12-15T15:27:58.000000Z 字数 1706 阅读 2432

推荐算法

软工实践

推荐算法
- version 1.1
  - 算法修改
- Version 1.0
  - 算法概要
  - 算法说明

version 1.1

算法修改

现在的思路是：

xp的意思是想要仅保存用户点击第一篇文章的特征，然后之后就都以这篇文章为标杆去推荐，而不去做不停的维护了

第一次，就是随机推送，然后以后每次用户看完第一篇，将第一篇id返回存在数据库中，第二天的时候，就根据这篇文章进行推送…

学长的建议：

用户文章的评分矩阵的存储确实是个问题，这一点可以考虑NoSQL的数据库，存储一个用户ID-评分矩阵的键值对，利用JSON做序列化的工作。

当然，其实也不必要非得存一个用户对600篇文章的，值的部分可以存成（Index，Float）列表形式，只有在比较两个用户相似度的时候才拼接成完整向量，平时存储都是稀疏存储。

稀疏存储的思路感觉挺棒的，但是实现上可能会有点困难，暂时按现在的思路实现。

Version 1.0

算法概要

PM：准备先采用最朴素的做法，去构造文章-标签的 0-1矩阵，以及用户-文章的评分矩阵，然后用余弦计算喜好程度。

先照这个做法的话，分成4块

构造文章-标签的 0-1 矩阵
构造用户-文章评分矩阵
计算相似度（余弦相似性）
推荐

变量说明

$users[i=1:S]$ ：用户集
$articles[j=1:M]$ ：文章集
$features[k=1:N]$ ：已经得到的特征集
：向量，，文章特征向量，初始为全0
- $MA_{j,k}$ ：表示文章 $articles[j]$ 在特征 $features[k]$ 的值
：向量，，用户评分向量，初始为全0
- $MP_{i,j}$ ：表示用户 $users[i]$ 对文章 $articles[j]$ 的评分
：向量，，用户特征向量，初始为全0
- $MU_{i,k}$ ：表示用户 $users[i]$ 在特征 $features[k]$ 的值

预处理文章特征01矩阵

for all articles j = 1 to M
    for all features k = 1 to N
        if (articles[j] 拥有 features[k] 属性)
            MA_{j}[k] = 1;
        else
            MA_{j}[k] = 0;

构造用户-文章评分矩阵

对于某一个用户 $users[i]$ ，在阅读某篇文章 $articles[j]$ 之后，评分为 $score_{i,j}$ ，则 $MP_{i,j} = score_{i,j}$
$score_{i,j}$ 的计算如下：

$score_{i,j} = \frac{readtime}{words}$
其中 $readtime$ 为阅读时间， $words$ 为文章的字数

计算相似度

对于某一个用户 $users[i]$ ：

计算 $users[i]$ 所有评分的均值：

$Avg_{i} = \frac{ \sum_{j \in Scored}MP_{i,j}}{|Scored|}$
其中 $Scored$ 为用户 $users[i]$ 已评分的文章集
计算用户 $users[i]$ 对 $features[k]$ 的喜好程度

$MU_{i,k} = \frac{ \sum(x_k - Avg_{i})}{n}$
这里， $x_k$ 为所有包含 $features[k]$ 且用户 $users[i]$ 已评过分的文章的评分， $n$ 为所有包含 $features[k]$ 的文章的数量
至此，对于用户 $users[i]$ ，得到了一个 $1*N$ 的向量 $MU_{i}$
计算 $users[i]$ 和 $article[j]$ 的相似度

$\cos(i, j) = \frac{\sum(MU_{i,k}*MA_{j,k})}{\sqrt{\sum{MU_{i,k}^2}}*\sqrt{\sum{MA_{j,k}^2}}}$

算法说明

预处理所有文章的特征01矩阵
在用户 $users[i]$ 注册后，该用户的 $MU_{i}$ 被初始化为全0
在用户 $users[i]$ 需要获取文章时，运用上述【算法概要】中【推荐】的做法，选择若干篇文章推荐给用户
在用户阅读文章时，获取参数【阅读时间】和【文章字数】。在阅读完文章时，根据参数依次处理：
- 更新用户评分向量 $MP_{i}$
- 更新用户特征向量 $MU_{i}$

推荐算法

version 1.1

算法修改

Version 1.0

算法概要

变量说明

预处理 文章特征01矩阵

构造 用户-文章评分矩阵

计算相似度

推荐

算法说明

内容目录

选择主题

预处理文章特征01矩阵

构造用户-文章评分矩阵