Recommended system common algorithm

本章内容

项目：电影推荐系统

掌握算法：协同过滤算法、矩阵分解算法、LR、GBDT、FM、BPR、DSSM、YoutubeNet、DeepFM、xDeepFM等；

其它知识点：MySQL、Redis、Neo4j、Faiss、模型部署等；

最终提供一个HTTP的访问接口，接收请求参数（可能就是用户ID），产生一个推荐的商品列表；

数据集：MovieLens

MovieLens是一个专注于个性化电影推荐的项目，定义了在推荐系统中对数据的格式要求。在传统的协同过滤和矩阵分解思路的推荐系统框架中，基本上都要求数据格式必须是符合MovieLens定义的数据格式。其格式为：用户id、商品id、评分、时间戳（可选）。

官网：https://movielens.org/
数据下载网站：https://grouplens.org/datasets/movielens/

\[ \begin{array}{|cccc|} \hline \text { userld } & \text { movield } & \text { rating } & \text { timestamp } \\ \hline 1 & 31 & 2.5 & 1260759144 \\ \hline 2 & 10 & 4.0 & 835355493 \\ \hline 3 & 84236 & 4.0 & 1298922130 \\ \hline \end{array} \]

Python推荐算法框架：Surprise

Surprise（Simple Python Recommendation System Engine）是scikit系列的一个库。支持多种推荐算法，是python语言使用实现推荐算法的首选方式。

官网：http://surpriselib.com/
文档：http://surprise.readthedocs.io/en/stable/
源码：https://github.com/NicolasHug/Surprise/

安装方式（依赖numpy服务）：

推荐：conda install -c conda-forge scikit-surprise
pip安装命令: pip install scikit-surprise
注意：如果用pip安装就一定需要安装c编译环境；

为什么我们使用pip安装surprise框架时需要c编译环境? 这主要是因为suprise中需要将c语言编写的.pyx文件（源码）编译成.c和.pyd文件。而这两个文件其实是和c相关的文件，所以只有通过编译才能够直接进行使用。

就拿suprise中的prediction_algorithms模块来说，我们在pycharm中想查看prediction_algorithms模块中的baseline_sgd方法，当我们打开后就是这样子
1
2
3
4
5
6
7
8
9
10
11
def baseline_sgd(*args, **kwargs): # real signature unknown
 """
 Optimize biases using SGD.

     Args:
         self: The algorithm that needs to compute baselines.

     Returns:
         A tuple ``(bu, bi)``, which are users and items baselines.
 """
 pass
这里说明这个方法底层是用 C 语言写的，无法看到Python源代码

不过我们有时可以打开相应路径下的.pyx后缀的文件来查看某一用CPython编写的函数的源码：（注： CPython 是 Python 编程语言的 C 实现。 Cython 旨在成为 Python C 扩展。开发人员可以使用 Cython 来加速 Python 代码执行。）

在Python中，有些内置函数或方法的实现体只有一个pass语句。这通常意味着它们是在Python的C实现层面（即CPython）中定义的。CPython是Python的官方解释器，它用C语言实现了Python的大部分标准库和内置功能。

这样做有几个原因：

性能：用C语言编写的函数通常比纯Python代码执行得更快，因为它们可以直接与底层C API交互，减少了解释执行的开销。

接口一致性：Python提供了一致的接口，无论功能是用Python还是C实现的。这意味着从Python代码的角度来看，这些函数的行为和其他Python函数没有区别。

底层访问：有些操作需要访问Python解释器的底层细节，这些细节在Python层面是不可见的，但可以通过C语言访问。

当你在Python代码中看到一个只有pass的函数或方法时，这通常是一个占位符，真正的实现在解释器的内部，不在Python层面的源代码中。这些函数和方法的定义通常在Python的C源代码中，它们被编译成二进制形式并内置在Python解释器中。

例如，许多内置数据类型（如list、dict）和它们的方法（如append()、get()）都是用C语言实现的，以提供最佳性能。这些方法在Python层面看起来可能只有一个pass，但它们的实际功能是在编译后的CPython解释器中实现的。
1
2
3
PyCharm做了一些相当出色的事情来提升开发者的使用体验。它会维护一个索引，这个索引中包含了当前解释器中所有的函数、类型等元素，从而支持开发者快速跳转到定义的位置。这是一个非常实用的功能。

至于内置函数，由于它们没有具体的实现可供IDE查找，PyCharm则采取使用Python文档（pydoc）来生成这些函数的签名。这些由PyCharm自动生成的签名，其函数体的内容通常为"pass"，意味着该函数什么也不执行。这是一个巧妙的方法，不仅提供了丰富的内置函数信息，让开发者能更精确地理解和使用这些内置函数，同时也保障了IDE的运行效率。

Surprise支持基本的常用推荐算法：

基础算法/baseline algorithms
协同过滤算法（基于近邻算法）/neighborhood methods
矩阵分解算法/matrix factorization-based（SVD, SVD++, NMF）

\[ \begin{array}{0} \hline 算法 & 描述 \\ \hline \begin{array}{1} random\_pred.NormalPredictor \end{array} & 基于统计的随机预测打分，假定用户的打分分布是服从高斯分布的。 \\ \hline baseline\_only.BaselineOnly & 基于统计的基准线预测打分。 \\ \hline knns.KNNBasic & 基本的协同过滤算法。 \\ \hline knns.KNNWithMeans & 基本协同过滤算法的变种，考虑每个用户的平均评分。 \\ \hline knns.KNNWithZScore & 基本协同过滤算法的变种，考虑每个用户评分的归一化操作。 \\ \hline knns.KNNBaseline & 基本协同过滤算法的变种，考虑基于统计的基准线评分。 \\ \hline matrix\_factorization.SVD & SVD矩阵分解算法。 \\ \hline matrix\_factorization.SVDpp & SVD++矩阵分解算法。 \\ \hline matrix\_factorization.NMF & 一种基于非负矩阵分解的协同过滤算法。 \\ \hline slope\_one.SlopeOne & SlopeOne协同过滤算法。 \\ \hline co\_clustering.CoClustering & 一种基于协同聚类的协同过滤算法。 \\ \hline \end{array} \]

http://surprise.readthedocs.io/en/stable/prediction_algorithms_package.html

相似度度量标准	描述
cosine	计算所有用户或者所有物品之间的余弦相似度。
msd	计算所有用户或者所有物品之间的平均平方差相似度。
pearson	计算所有用户或者所有物品之间的皮尔森相似度。
pearson_baseline	使用基准线方式计算皮尔森相似度。

http://surprise.readthedocs.io/en/stable/similarities.html

评估准则	描述
rmse	Root Mean Squared Error, 计算均方根误差。
mae	Mean Absolute Error, 计算平均绝对误差。
fcps	Fraction of Concordant Pairs.

http://surprise.readthedocs.io/en/stable/accuracy.html

推荐算法_协同过滤

协同过滤（CF，Collaborative Filtering），也叫做基于近邻的推荐算法，其主要思想是利用已有的用户群过去的行为或者意见来预测数据，简单来说， “协同过滤”就是协同⼤家的反馈、评价和意见⼀起对海量的信息进⾏过滤，从中筛选出⽬标⽤户可能感兴趣的信息的推荐过程。它根据和当前用户/当前物品比较相似的近邻数据来产生推荐结果，类似于KNN算法的思想，是一种非常基础、非常常用的经典推荐算法。

该算法的输入是一个用户-物品评分矩阵，输出的数据一般有两类：当前用户对物品喜欢和不喜欢程度的预测评分数值以及N项推荐物品的列表。

协同过滤算法的优势：

简单性：实现简单，而且在调整参数的过程中只有一个近邻数需要调整。
合理性：对于预测推荐提供了简洁并直观的理由。
高效性：基于近邻方法的推荐的效果特别高，因为可以先进行预处理，构建出相似度矩阵。在实际应用过程中，可以提供近似实时的推荐结果。
稳定性（ItemCF）：当相似度矩阵构建完成后，如果有用户对物品产生新的评分，那么影响的范围是很小的。

由于在CF算法中，需要输入的是用户-物品评分矩阵，所以构建用户-物品评分矩阵是一个在进行协同过滤的重点。评分一般采用两分制、五分制、七分制和十分制这四种。CF算法基于的数据是用户-物品评分矩阵, 所以说我们的数据中需要包含物品的评分，但评分其实很难收集，而评分不好收集，就会导致模型不好学习。于是数据的评分就分为两种形式，我们可以通过以下两种方式收集用户对物品的评分，分别是：

显式评分：通过问卷调查的方式收集用户对于商品的评分。优点是数据比较准确，缺点是当用户看不到好处的时候可能不会提供评分。

显式评分，其实就是让用户主动评，但是让用户主动评，存在着一个问题，比如说点外卖，我相信我们都不怎么会进行评分吧，但外卖单子上经常会有好评返现，于是乎，就会存在一个问题，就是这个评分的可信度相对来讲就不好说，就是如果说在理论情况下，也就是没有外界干扰的情况下，用户主动评的评分才能够体现用户的本质需求，但是，由于评分经常会有外界因素影响，而最主要原因也就是用户不怎么去评分。

当然了，实际上，哪怕存在好评返现的情况，我们仍然认为这种数据是还可以的。为什么呢？因为，至少在某些情况下，比如说外卖，用户给出好评是基于一定的前提条件的。那就是，食物的味道至少是可接受的，在这种情况下，好评返现可能会吸引用户给出好评。或者说当食物的味道非常不错的时候，用户也会给出好评。但如果食物的味道实在是太差，即便有好评返现的诱惑，用户也可能会选择给出差评。

隐式评分：当用户购买一个商品或者浏览一个商品的时候，我们可以认为这是一个正向评分/正向意图。根据既定的规则，可以将其转换为评分值。这种方式的优点是可以收集到较多的数据，缺点是很难保证得到的评分数据是一个准确的用户评分数据。

不管如何操作，实际上用户物品评分矩阵基本上都是一个非常稀疏的矩阵，也就是只有少量用户在少量商品上有评分。这种情况会直接导致模型效果变差；这种情况有一个通用的名称，叫做冷启动问题。冷启动问题在推荐领域中主要包括以下两种情况：

如果向还没有任何交互行为的新用户产生推荐列表？
如果将新商品推送给用户？

解决方案：

利用混合方法进行推荐，采用多种机器学习、深度学习模型完成推荐。
采用ItemCF算法（变种）中的相似度矩阵的策略来缓解冷启动（实际上就是采用I2I策略推荐）。
利用新品推荐强制将新商品推送给用户。
利用热门推荐给新用户推送商品列表。

计算新商品和其他商品的相似度：

在推荐系统中，对于新商品（通常称为冷启动物品），计算其与其他商品之间的相似度是一个挑战，因为新商品缺乏用户的交互数据。为了解决这个问题，可以采用以下一些方法来计算新商品与其他商品之间的相似度：

1. 基于内容的相似度计算

文本信息：利用商品的描述、标题、关键词等文本信息，通过自然语言处理技术（如TF-IDF、Word2Vec、BERT等）提取特征，然后计算新商品与现有商品之间的文本相似度。

视觉信息：如果商品有图片，可以使用图像处理技术（如CNN）提取图像特征，然后计算新商品与现有商品之间的视觉相似度。

属性信息：基于商品的属性信息（如品牌、类别、价格等）计算相似度。这可能涉及到将这些属性转换为数值特征，然后使用余弦相似度、欧氏距离等方法计算相似度。

2. 基于协同的方法

即使是新商品，也可能在一开始就有少量的用户交互数据（如点击、收藏等）。可以利用这些初步数据结合协同过滤技术，通过用户对其他商品的评分或交互，间接计算新商品与其他商品的相似度。

3. 混合方法

基于模型的方法：使用包含内容信息和用户交互的混合推荐模型，如因子分解机（Factorization Machines），可以同时考虑商品内容特征和用户行为数据，对新商品进行有效的相似度计算。

多模态学习：如果商品具有多种类型的信息（如文本、图像等），可以采用多模态学习方法整合这些信息，提高相似度计算的准确性。

4. 社交网络信息

如果推荐系统可以访问社交网络数据，可以利用用户在社交网络上的行为和关系，通过分析用户群体对新商品的态度和反应，间接推断新商品与其他商品的相似度。

采用这些方法时，关键在于如何有效地整合多种信息源和技术，以克服新商品缺乏历史交互数据的问题，从而准确地计算出新商品与其他商品之间的相似度，提高推荐系统的性能。

基于近邻的算法是基于评分之间的关联性进行推荐的，所以存在两个重要的缺陷：

覆盖有限：由于计算两个用户之间的相似性是基于他们对相同物品的评分，而且只有对相同物品进行评分的用户才能作为近邻。然而，在实际应用中，有些用户有很少或者没有共同评分，但是他们可能具有相似的爱好，因此推荐算法的覆盖将会受到影响。
对稀疏数据的敏感：由于用户只会对一部分物品进行评分，所以评分矩阵的稀疏性是大多数推荐系统的共同问题。当数据是稀疏的时候，两个用户或者物品之间的相似性计算仅适用很少量有限的近邻。另外，相似性权重的计算也可能依赖小部分评分，从而有可能导致推荐偏差。这也是一个比较重要的问题：冷启动问题。

主要/最基础的实现方式包括：

基于用户的最近邻推荐（UserCF）
基于物品的最近邻推荐（ItemCF）

简单来说：

UserCF（基于用户的协同过滤）：这种方法首先找到与目标用户最相似的K个用户（即“邻居”），然后根据这些相似用户对特定物品的评分来预测目标用户对该物品的评分。这种方法的核心思想是，相似的用户可能对物品有类似的评价。

ItemCF（基于物品的协同过滤）：这种方法首先识别出目标用户已经评价过的物品，然后找到这些物品与其他物品之间的相似度。接着，基于这些相似度以及用户对已评价物品的评分，来预测用户对未评价物品的评分。这种方法的核心思想是，用户可能会对相似的物品给出相似的评分。

两种方法各有优势，UserCF侧重于利用用户之间的相似性来进行推荐，而ItemCF侧重于物品之间的相似性。在实际应用中，选择哪种方法取决于具体的业务场景和数据特性。例如，如果物品的数量远小于用户的数量，ItemCF可能会更有效，因为计算物品之间的相似度比计算用户之间的相似度更容易管理。相反，如果用户的行为模式比较稳定，UserCF可能会提供更准确的推荐。

UserCF在计算相似度的过程中是多用户单商品，而ItemCF在计算相似度的过程中是单用户多商品。具体来说就是UserCF是通过多个相似用户对指定商品的评分然后加权计算用户对某一商品的评价， ItemCF是基于当前用户评价过的其他商品的评分然后加权计算用户对某一商品的评分。

在使用UserCF时我们更常用的计算相似度的指标是皮尔逊相关系数，因为皮尔逊相关系数更多的考虑评分的趋势而不是绝对值。这对于比较用户的评分行为特别有用，因为即使两个用户的评分标准不同（例如，一个用户评分较严格，另一个评分较宽松），但他们可能仍然对物品有相似的喜好和评分趋势。那么在这种情况下，我们通过趋势来判断用户间的相似度可能就会更加的好一些。而在使用ItemCF时我们更常用的计算相似度的指标则是余弦相似度。余弦相似度通过比较两个物品评分向量的夹角来计算相似度，它只关注评分向量的方向而不是大小，这意味着它只考虑了用户评分模式的一致性，而不受用户评分量值的影响。这在物品间的相似度计算中是有意义的，因为我们更关心的是哪些物品被相似的用户群体评分，而不是具体的评分值。

\[ \begin{array}{|c|c|c|} \hline & \text { UserCF } & \text { ItemCF } \\ \hline \text { 性能 } & \begin{array}{l} \text { 适用于用户较少的场合, 如果用户过 } \\ \text { 多, 计算用户的相似度矩阵代价比较 } \\ \text { 高。 } \end{array} & \begin{array}{l} \text { 适用于物品数明显小于用户数的场合, 如 } \\ \text { 果物品数过多, 计算物品之间的相似度矩 } \\ \text { 阵代价过大。 } \end{array} \\ \hline \text { 领域 } & \begin{array}{l} \text { 时效性较强, 用户个性化兴趣不明显 } \\ \text { 的领域（可在一定程度上帮助拓展用户的兴趣面） } \end{array} & \begin{array}{l} \text { 长尾物品丰富, 用户个性化需求强烈的领 } \\ \text { 域 } \end{array} \\ \hline \text { 实时性 } & \begin{array}{l} \text { 用户有新行为, 不一定会对推荐结果 } \\ \text { 产生影响 } \end{array} & \begin{array}{l} \text { 用户有新行为的时候, 一定会导致推荐结 } \\ \text { 果实时变化 } \end{array} \\ \hline \text { 冷启动 } & \begin{array}{l} \text { 在新用户对很少物品产生行为的时候, } \\ \text { 不能立即对用户进行个性化推荐 } \\ \text { 新物品上线一段时间后,一旦有用户 } \\ \text { 对该物品产生行为, 那么就可以将新 } \\ \text { 物品推存给其他兴趣相似的用户 } \end{array} & \begin{array}{l} \text { 新用户只要对一个物品产生行为, 就可以 } \\ \text { 给他推在和该物品相似的其它物品 } \\ \text { 必须等到更新物品相似度矩阵的时候才可 } \\ \text { 以将新物品更新进去。 } \end{array} \\ \hline \text { 推荐理由 } & \begin{array}{l} \text { 很难提供令用户信服的推荐解释 }\\ \text { （比如某用户喜欢喜剧,}\\ \text { 然后因为另一喜欢喜剧又喜欢战争的相似用户}\\ \text { 于是突然推了一个战争片）} \end{array} & \begin{array}{l} \text { 利用用户的历史行为做推荐解释, 可以令 } \\ \text { 用户比较信服 } \end{array} \\ \hline \end{array} \]

协同过滤算法在整个体系中的定位就是召回

UserCF

其实在suprise框架中最重要的算法就是协同过滤算法

基于用户的最近邻推荐（User-based Nearest Neighbor Recommendation，UserCF）的主要思想包括以下步骤：

说白了就是把相似用户喜好的商品作为当前用户的一个推荐列表，本质上就是选则相似用户并把相似用户喜好的商品作为当前用户的推荐。

针对输入的评分数据集和当前用户ID，找出与当前用户过去有相似偏好的其他用户，这些用户被称为对等用户或者最近邻。
对于当前用户没有见过的每个产品p，利用用户的近邻对产品p的评分进行预测。
选择所有产品评分最高的TopN个产品推荐给当前用户。

UserCF的主要前提/假设包括：

当我们根据计算得来的当前用户和其他用户的相似度后，并找到相似用户之后，然后我们现在把这些相似用户所喜好的商品p的评分做一个加权融合，这样就会产生当前用户对于商品p的评分，然后不断遍历即可达到这个效果。简单来说就是物以类聚人以群分的思路。

"物以类聚人以群分"中人以群分的思想：如果两个用户共同喜好的商品越多，即这两个用户更加相似，那么这两个用户就有非常高的可能喜欢对方喜欢的商品。
用户的偏好不会随时间发生变化。

首先，我们计算各个用户之间的相似度。在分析后，我们发现某用户与小松鼠的相似度异常高。因此，我们决定将小松鼠喜爱的物品推荐给该用户。这一决策的依据是历史数据显示这两位用户的行为习惯极为相似。

那么，我们是如何进行这项操作的呢？首先，我们计算所有用户之间的相似度矩阵。这就是我们执行推荐过程的基础。

UserCF算法执行流程如下：

计算所有用户与用户之间的相似度矩阵（基于用户共同评价商品列表来计算相似度）
计算当前用户u对于当前物品i的评分方式如下： 2.1. 获取和当前用户u最相似的K个近邻用户（要求这K个近邻用户在物品i上有评分）。

在surprise框架中，我们是通过ir（结构：{item: [user, rating]}）来找到在物品i上进行评分的每一个用户，然后对当前用户计算与物品i所对应的每一个用户的相似性，即可得出k个在物品i上有评分的近邻用户。如此一来我们不需要遍历所有的用户求相似度，大大提高了效率。

2.2. 根据K个近邻用户对物品i的评分计算当前用户对物品i的评分。
重复步骤2，计算出当前用户对所有物品的评分。
重复步骤2和3，计算所有用户对所有物品的评分。
对于每个用户，提取该用户对所有物品的评分排序后，评分最高的N个商品作为推荐商品列表。

注意：在提取推荐商品列表的时候，可以考虑将用户已访问商品去除。

=======================================================================
假设现在有一个原始的训练数据集（用户物品评分矩阵）:
u1,p1,5
u1,p2,3
u1,p3,5
u1,p4,1
u1,p8,2
u1,p9,1
u1,p6,3

u2,p1,4
u2,p12,3
u2,p13,5
u2,p41,1
u2,p8,2
u2,p9,1
u2,p16,3
u2,p28,2
u2,p29,1
u2,p26,3

u3,p11,5
u3,p22,3
u3,p3,5
u3,p14,1
一、计算所有用户与用户的相似度
	1.1、计算u1和u2的相似度
		- 从评分矩阵中提取u1和u2共同评分的商品评分
			u1: [p1:5, p8:2, p9:1] --> [5,2,1]
			u2: [p1:4, p8:2, p9:1] --> [4,2,1]
		- 计算这两个向量的相似度直接作为用户的相似度s12
			NOTE：自己补全(余弦相似度或者欧几里得距离)
	1.2、计算u1和u3的相似度
		- 从评分矩阵中提取u1和u3共同评分的商品评分
			u1: [p3:5] --> [5]
			u3: [p3:5] --> [5]
		- 计算这两个向量的相似度直接作为用户的相似度s13
			NOTE：自己补全(余弦相似度或者欧几里得距离)
	1.3、计算u2和u3的相似度
		- 从评分矩阵中提取u2和u3共同评分的商品评分
			u2: [] --> []
			u3: [] --> []
		- 计算这两个向量的相似度直接作为用户的相似度s23(直接就是0)
			NOTE：自己补全(余弦相似度或者欧几里得距离)

二、计算用户对物品的评分(两层循环的结果，自己补全)
	2.1 计算u3对商品p1的评分
		- 提取和u3相似的用户K个(eg: 1个，要求这个用户在商品p1上是有评分的)
			基于相似度矩阵发现最相似度的是u1
			u1 -> p1 -> 5
		- 将所有相似用户在商品p1上的评分合并
			最简单的合并: 均值合并(r1+r2+..+rk)/k
			k==1 --> 预测评分等于5

协同工具其实是拿着两个用户同时评价过的商品序列，然后基于这两个用户在这些有交集的商品序列的评分来计算用户间的相似度。并且影响用户间相似度的实际上是用户所共同评价过的商品的列表，如果共同评价过的商品列表越长，那计算出的用户间的相似度或者可信度就足够的高。

最原始的UserCF：首先获取出 K个最相似的近邻用户，然后将这些用户对物品的评分进行加权求和。 \[ \hat{r}_{u i}=\frac{\sum_{v \in N_i^k(u)} \operatorname{sim}(u, v) * r_{v i}}{\sum_{v \in N_i^k(u)} \operatorname{sim}(u, v)} \] $ N_i^k(u)$$\begin{aligned}\text{ 是对物品 }i\text{ 评分的用户中与用户 }u\text{ 相似度最高的前 }k\text{ 个用}\text{户的集合。}\end{aligned}$

进行均值转换后的UserCF：该算法的原理是认为用户对物品的评分应该是位于该用户对所有物品评分的均值附近的, 所以在计算过程中, 不是直接使用相似用户对物品的评分, 而是使用物品评分和期望之间的差值进行计算。 \[ \hat{r}_{u i}=\bar{r}_u+\frac{\sum_{v \in N_i^k(u)} \operatorname{sim}(u, v) *\left(r_{v i}-\bar{r}_v\right)}{\sum_{v \in N_i^k(u)} \operatorname{sim}(u, v)} \] 在进行基线转换后的UserCF算法中, 使用baseline的值来代替均值即可。因为均值体现的是当前用户在所有物品中的评分均值, 而baseline可以认为是当前用户在当前物品上可能的评分, 通过计算相似用户实际评分和baseline可能评分之间的差值从而可以得到当前用户的预测评分(预测评分 $=$ baseline + 可能的差值) \[ \hat{r}_{u i}=b_{u i}+\frac{\sum_{v \in N_i^k(u)} \operatorname{sim}(u, v) *\left(r_{v i}-b_{v i}\right)}{\sum_{v \in N_i^k(u)} \operatorname{sim}(u, v)} \] 基于评分数据矩阵采用UserCF预测gerry用户对于物品5的评分 \[ \begin{array}{|c|c|c|c|c|c|c|} \hline & \text { 物品1 } & \text { 物品2 } & \text { 物品3 } & \text { 物品4 } & \text { 物品 5 } & \text { 均值 } \\ \hline \text { Gerry } & 5 & 3 & 4 & 4 & ? & 4 \\ \hline \text { 用户1 } & 3 & 1 & 2 & 3 & 3 & 2.4 \\ \hline \text { 用户2 } & 4 & 3 & 4 & 3 & 5 & 3.8 \\ \hline \text { 用户3 } & 3 & 3 & 3 & 5 & 4 & 3.6 \\ \hline \text { 用户4 } & 1 & 5 & 5 & 2 & 1 & 2.8 \\ \hline \end{array} \]

皮尔逊相关系数计算两个变量的相似度时，实际上比较的就是两个变量的变化趋势。

用户Gerry和其它用户之间的相似度列表 \[ per\_sim_{u,\nu}=\frac{\sum_{i\in I_{u,\nu}}\left(r_{u,i}-\overline{r}_{u}\right)\left(r_{\nu,i}-\overline{r}_{\nu}\right)}{\sqrt{\sum_{i\in I_{u,\nu}}\left(r_{u,i}-\overline{r}_{u}\right)^2}\sqrt{\sum_{i\in I_{u,\nu}}\left(r_{\nu,i}-\overline{r}_{\nu}\right)^2}} \]

\[ \begin{array}{|l|l|l|l|l|} \hline & \text { 用户1 } & \text { 用户2 } & \text { 用户3 } & \text { 用户4 } \\ \hline \text { Gerry } & 0.853 & 0.707 & 0.0 & -0.792 \\ \hline \end{array} \]

选择 $K$ 为 2 , 那么可以得到Gerry对物品 5 的评分预测为: 4.872 \[ \operatorname{pred}(\text { gerry, product } 5)=4+\frac{0.853 *(3-2.4)+0.707 *(5-3.8)}{0.853+0.707}=4.872 \]

ItemCF

基于物品的最近邻推荐（Item-based Nearest Neighbor Recommendation，ItemCF）的思想是基于物品之间的相似度来进行预测评分值，而不是基于用户之间的相似度。与UserCF相比，ItemCF有一个主要区别点：UserCF计算的是用户之间的相似度，从而将相似用户喜好的物品推荐给当前用户；而ItemCF中计算的是物品与物品之间的相似度，从而根据当前用户喜好的物品来推荐其他物品列表。

ItemCF的主要前提/假设包括：

"物以类聚，人以群分"中物以类聚的思想。如果两个商品同时被多个用户偏好，那么表示这两个商品具有非常高的相似度，针对只浏览过单一商品的用户就可以推送另外一个商品作为偏好商品。
用户的偏好不会随时间发生变化。

ItemCF算法执行流程如下：

计算所有商品与商品之间的相似度矩阵（基于两个商品共同被用户评论的共同用户列表）
计算当前用户u对于当前物品i的评分方式如下： 2.1. 获取和当前物品i最相似的K个近邻物品（要求这K个近邻物品都被用户u评分过）。 2.2. 根据用户u对K个近邻物品的评分计算当前用户对物品i的评分。
重复步骤2，计算出当前用户对所有物品的评分。
重复步骤2和3，计算所有用户对所有物品的评分（用户物品评分矩阵）。
对于每个用户，提取该用户对所有物品的评分排序后，评分最高的N个商品作为推荐商品列表。

注意：在提取推荐商品列表的时候，可以考虑将用户已访问商品去除。

最原始的ItemCF：首先获取出 $\mathrm{K}$ 个最相似的近邻物品, 然后将当前用户在这些物品上的评分进行加权求和。 \[ \hat{r}_{u i}=\frac{\sum_{j \in N_u^k(i)} \operatorname{sim}(i, j) * r_{u j}}{\sum_{j \in N_u^k(i)} \operatorname{sim}(i, j)} \] 进行均值转换后的ItemCF：该算法的原理是认为用户u对物品i的评分应该是位于该物品 i $^2$ 其它所有用户评分的均值附近的。所以在计算过程中, 不是直接使用用户u对相似物品的评分, 而是使用物品评分和期望之间的差值进行计算。 \[ \hat{r}_{u i}=\bar{r}_i+\frac{\sum_{j \in N_u^k(i)} \operatorname{sim}(i, j) *\left(r_{u j}-\bar{r}_j\right)}{\sum_{j \in N_u^k(i)} \operatorname{sim}(i, j)} \] 在进行基线转换后的ItemCF算法中，使用baseline的值来代替均值即可。因为均值体现的是所有用户在当前物品 $i$ 中的评分均值, 而baseline可以认为是当前用户u在当前物品i上可能的评分,通过计算用户 $u$ 在相似物品 $\mathrm{L}$ 上的实际评分和baseline可能评分之间的差值从而可以得到用户 $u$ 的对于物品i预测评分(预测评分=baseline + 可能的差值) \[ \hat{r}_{u i}=b_{u i}+\frac{\sum_{j \in N_u^k(i)} \operatorname{sim}(i, j) *\left(r_{u j}-b_{u j}\right)}{\sum_{j \in N_u^k(i)} \operatorname{sim}(i, j)} \]

我们可以这么理解，就是结合所有用户对所有商品的总体平均评分+用户的偏好+商品的受欢迎程度来估计出一个大致的评分，最后再基于用户对相似商品的实际评分和baseline评分之间的差值即可计算出用户对指定商品的评分。举个例子，比如用户喜欢看变形金刚系列的电影，并且经常打高分，假如现在新出了一部变形金刚的电影，我们在所有用户对所有电影的总体平均评分之上，结合用户的偏好习惯以及电影的受欢迎程度即可预估出该用户对这部新上映电影的大致评分，最后再结合用户对相似电影的实际评分与baseline之间的差值即可预测出该用户对这部新上映的电影的评价。

基于评分数据矩阵采用ItemCF预测gerry用户对于物品5的评分 \[ \begin{array}{c|c|c|c|c|c|} \hline & \text { 物品1 } & \text { 物品2 } & \text { 物品3 } & \text { 物品4 } & \text { 物品5 } \\ \hline \text { Gerry } & 5 & 3 & 4 & 4 & ? \\ \hline \text { 用户1 } & 3 & 1 & 2 & 3 & 3 \\ \hline \text { 用户2 } & 4 & 3 & 4 & 3 & 5 \\ \hline \text { 用户3 } & 3 & 3 & 3 & 5 & 4 \\ \hline \text { 用户4 } & 1 & 5 & 2 & 4 & 1 \\ \hline \text { 均值 } & 3.2 & 3.0 & 3.0 & 3.8 & 3.25 \\ \hline \end{array} \]

物品5和Gerry评价过的其它物品之间的相似度列表 \[ per\_sim_{i,j}=\frac{\sum_{u\in U_{i,j}}\left(r_{u,i}-\overline{r_i}\right)\left(r_{u,j}-\overline{r_j}\right)}{\sqrt{\sum_{u\in U_{u,\nu}}\left(r_{u,i}-\overline{r}_i\right)^2}\sqrt{\sum_{u\in U_{u,\nu}}\left(r_{u,j}-\overline{r}_j\right)^2}} \]

\[ \begin{array}{|c|c|c|c|} \hline & \text { 物品1 } & \text { 物品2 } & \text { 物品3 } & \text { 物品4 }\\ \hline \text { 物品5 } & 0.969 & -0.478 & 0.866 &-0.153\\ \hline \end{array} \]

选择 $K$ 为 2 , 那么可以得到Gerry对物品 5 的评分预测为:4.672 \[ \operatorname{pred}(\text { gerry, product } 5)=3.25+\frac{0.969 *(5-3.2)+0.866 *(4-3.0)}{0.969+0.866}=4.672 \] ItemCF变种

基于物品的最近邻推荐可以离线进行数据预计算。首先构建一个物品相似度矩阵，用于描述两个物品之间的相似度，然后针对每个物品提取最相似的K个物品作为该物品的推荐物品。在线上运行时，当用户浏览了商品p，就可以将商品p对应的相似商品列表直接作为推荐列表返回给前端展示。

这种策略具有可行性的主要原因是，基于ItemCF计算物品相似度矩阵的过程中，物品与物品之间的相似度实际上依赖于用户共同评分的行为。由于单一用户评分过的商品数量实际上是比较少的，并且在短期内（一天），用户新增对商品评分的操作也是比较少的，所以物品相似度矩阵相对来讲是比较稳定的（只会影响当前用户评估过的商品之间的相似度）。

所以相对于UserCF来说ItemCF比较可控和稳定。

ItemCF变种的实际意义就是可以让线上的推荐列表实时的发生变化

矩阵分解

在协同过滤中，我们要求只有当两个用户对于同一个物品进行评分后我们才可以计算用户之间的相似度，或者说只有当两个物品被同一个用户评分后我们才可以计算物品之间的相似度。然而，这样的计算相似度的方式其实是没有考量物品/用户背后的关联性。

举例来说：

用户1对iPhone 6评价为4.0分
用户2对iPhone 6 Plus评价为4.8分

问：iPhone 6和iPhone 6 Plus之间的相似度是多少呢？用户1对于iPhone 6 Plus的评分是多少呢？

这里需要指出的是，在传统的协同过滤方法中，iPhone 6和iPhone 6 Plus的相似度将不会直接从用户1和用户2的评分得出。因为传统的协同过滤主要关注同一物品或同一用户的评分，而不太涉及不同物品之间的关联性。

关于用户1对iPhone 6 Plus的评分，根据传统协同过滤方法，无法直接得出。

比如用户对某个商品打了5分、6分或其他具体分数。这引出了一个有趣的问题：为什么用户会给出这样的评分？答案在于，这些商品或服务具有某些特性，这些特性恰恰是用户所需要或所偏好的。换言之，只有当商品呈现出用户所期望的特点时，用户才会给予较高的评分。这意味着商品与用户偏好的契合程度是评分高低的关键因素。相反，如果商品缺乏用户所期待的特点，那么它收到的评分往往会较低。这一过程揭示了用户评分背后的逻辑和推荐系统以此建立更精确推荐的原理。

用户已给iphone6打了4.0分有可能用户希望它有这么几个特点：

而且IPhone6在这几个特点上具有这么几个信息:

那我们现在把用户一的诉求和iPhone6所具有的特点进行线性组合

我们发现将用户的诉求和IPhone具有的信息线性组合后得到的结果好像正好可以填充问号所在的位置

这其实就是因为我们在构建模型的时候，我们认为用户给这个分值不是无缘无故给的，而是因为用户考虑了很多方面，那很多方面呢，就是各方面的因素，那么我们如何找到这些因素，我们就看用户对这些因素的偏好到底有多少？以及这个物品包含信息到底有多少？结合起来就是最终的结果。但因素，在模型层面，其实是很难做的。

隐语义模型

隐语义模型又叫做潜在因子算法（Latent Factor）。其算法思想是：认为每个用户都有自己的偏好，同时每个物品也包含所有用户的偏好信息。因此，可以认为用户对于物品的高评分体现的是物品中所包含的偏好信息恰好就是用户喜好的信息。然而，这个偏好信息却无法简单且明显地找出，因此我们可以认为这个偏好信息就是潜在影响用户对物品评分的因子，即潜在因子。因此，只要我们可以得到用户-潜在因子矩阵Q和物品-潜在因子矩阵P，就可以计算出用户对于物品的评分信息。 \[ \hat{R}=QP^T \] 比如说我们做一个电影推荐，我们能知道影响用户对电影评分的因素到底有哪些吗？这些因素是不可感知的，所以，我们给它取了个名字叫做隐因子，或者说潜在因子。所以它叫做隐语义模型，又叫作潜在因子算法，而这个算法的本质思想就是认为每个用户都有自己的偏好，每个物品也有自己的偏好信息。只有当用户的偏好信息和物品的偏好信息刚好契合的时候，用户才会给出一个高的评分。也就是说用户对物品的高评分其实体现的是物品包含的某些信息恰好是用户所喜好的，于是用户就给了高评分，但是这个偏好信息，实际上我们是没法很明显地直接找出来的，但我们不管，因为实际上我们可以认为用户对物品的评分等于用户潜在因子矩阵Q乘上物品潜在因子矩阵P。

用户-潜在因子矩阵Q：1表示特别喜欢，0表示不喜欢。 \[ \begin{array}{|l|r|r|r|r|r|} \hline & \text { 小清新 } & \text { 重口味 } & \text { 优雅 } & \text { 伤感 } & \text { 五月天 } \\ \hline \text { 张三 } & 0.6 & 0.8 & 0.1 & 0.1 & 0.7 \\ \hline \text { 李四 } & 0.1 & 0 & 0.9 & 0.1 & 0.2 \\ \hline \text { 王五 } & 0.5 & 0.7 & 0.9 & 0.9 & 0 \\ \hline \end{array} \] 物品-潜在因子矩阵P：表示各个物品包含各个元素的成分，比如音乐A是一个偏小清新的音乐，包含小清新这个Latent Factor的成分是0.9，重口味的成分是0.1，优雅的成分是0.2....

	小清新	重口味	优雅	伤感	五月天
音乐A	0.9	0.1	0.2	0.4	0
音乐B	0.5	0.6	0.1	0.9	1
音乐C	0.1	0.2	0.5	0.1	0
音乐D	0	0.6	0.1	0.2	0

	小清新	重口味	优雅	伤感	五月天		音乐A	音乐B	音乐C	音乐D
张三	0.6	0.8	0.1	0.1	0.7	张三	0.68	1.58	0.28	0.51
李四	0.1	0	0.9	0.1	0.2	李四	0.31	0.43	0.47	0.11
王五	0.5	0.7	0.9	0.9	0	王五	1.06	1.57	0.73	0.69

根据矩阵Q和P，就可以计算出每个人对每个商品的喜好程度。比如，张三对音乐A的喜好程度可以表示为：张三对小清新的偏好*以音乐A含有的小清新的成分+张三对重口味的偏好乘以音乐A含有的重口味的成分再加上张三对优雅的偏好乘以音乐A含有的优雅的成分等等。即：$0.6*0.9 + 0.8*0.1 + 0.1*0.2 + 0.1*0.4 + 0.7*0 = 0.68$

	小清新	重口味	优雅	伤感	五月天			小清新	重口味	优雅	伤感	五月天
张三	0.6	0.8	0.1	0.1	0.7		音乐A	0.9	0.1	0.2	0.4	0

根据Q和P通过这种计算方式就可以得到不同用户对于不同物品的评分矩阵，最终的推荐结果就是每个人评分比较高的那些物品，比如张三就推荐音乐B，李四推荐音乐C，王五推荐音乐B。

	音乐A	音乐B	音乐C	音乐D
张三	0.68	1.58	0.28	0.51
李四	0.31	0.43	0.47	0.11
王五	1.06	1.57	0.73	0.69

不过以上数据都是我们人为填的：

求解用户/物品-潜在因子矩阵的过程如下：

假定有$n$个用户，$m$个物品，$k/K$个隐因子；
$R$为用户-物品评分矩阵，$Q$为用户-潜在因子矩阵，$P$为物品-潜在因子矩阵。

\[ 在用户-潜在因子矩阵和物品-潜在因子矩阵未求出前R_{n*m}是个稀疏矩阵\\ R_{n^*m}\approx Q_{n^*k}\times P_{m^*k}^T\quad\hat{r}_{ui}=q_up_i^T=\sum_{k=1}^Kq_{uk}p_{ik}\\ \ \ \ \ \ \quad \quad \quad当Q_{n^*k}和P_{m^*k}^T求出来后， R_{n*m}就是一个稠密的矩阵，相当于我们已经做预测了 \]

SVD

SVD（奇异值分解，Singular Value Decomposition）的想法是根据已有的评分情况，分析出评分者对各个物品因子的喜好程度，以及各个物品对于这些因子的包含程度，最后再根据分析结果预测评分。通过SVD的方式可以找出影响评分的显式因子和隐藏因子，从而发现更多有意义的关联关系。

SVD的数学定义：将给定评分矩阵$R$分解成为三个矩阵的乘积，其中$U$、$V$称为左、右奇异向量，$\Sigma$对角线上的值称为奇异值；其中$R$为$n \times m$的矩阵，$U$为$n \times n$的矩阵，$\Sigma$为$n \times m$的矩阵，$V$为$m \times m$的矩阵。可以使用前$k$个奇异值来近似地替代$R$矩阵，因为前1%的奇异值的和就占了全部奇异值和的99%以上。 \[ R_{n^*m}=U_{n^*n}*\sum_{n^*m}*V_{m^*m}\quad R_{n^*m}\approx U_{n^*k}*\sum_{k^*k}*V_{k^*m}^T \]

数学层面的SVD分解要求用户-物品评分矩阵必须是稠密的，也就是说用户-物品评分矩阵的所有位置不能有空白, 有空白时我们是没法直接进行SVD分解的。但是如果这个矩阵是稠密的，那不就是说我们已经找到所有用户物品的评分了吗？那我们还进行SVD做什么？所以数学层面的SVD不能做。这是一个问题，传统SVD采用的方法是对评分矩阵中的缺失值进行简单的补全，比如用全局平均值或者用用户物品平均值补全，得到补全后的矩阵。接着可以用SVD分解。

使用上述简单的矩阵分解方式虽然可以解决缺失值的情况，但由于推荐系统中的用户量和物品量特别大，直接使用原始SVD的矩阵分解是比较困难的。

FunkSVD

由于现在在SVD矩阵分解中，将矩阵分解为三个矩阵效率比较低，那么我们可以通过矩阵分解为两个矩阵来降低执行的消耗；即将$U$、$V$矩阵进行转换得到用户因子矩阵$Q$和物品因子矩阵$P$，并且最终的评分预测为$r_{ui}$也需要进行对应的转换。

对角线矩阵$\Sigma$中，因为靠前的奇异值占总奇异值的比例非常高，所以我们只取前面一部分，也就是我们对$\Sigma$进行截取，而当我们对$\Sigma$进行截取后，我们也要对$U和V$矩阵进行截取才能满足矩阵运算。并且截取过后我们会发现对角线矩阵中的奇异值都是大于零的值, 所以我们是可以将对角线矩阵$\Sigma$分成两个$\sqrt{\Sigma}$相乘的形式，然后分别与$U和V$矩阵组合为一个整体。 \[ \begin{aligned} & Q_{n^* k}=U_{n^* k} *\left(\Sigma_{k^* k}\right)^{1 / 2} \quad P_{m^* k}=\left(\left(\Sigma_{k^* k}\right)^{1 / 2} \times V_{m^* k}^T\right)^T \\ & R_{\mathrm{n}^* m} \approx Q_{n^* k} * P_{m^* k}^T \\ & \hat{r}_{u i}=q_u p_i^T=\sum_{k=1}^K q_{u k} p_{i k} \end{aligned} \] 实际上，我们直接做矩阵分解不行，但是我们可以做一件事，用算法的思路去做，因为原始的用户-物品评分矩阵是稀疏的，也就是说存在很多空白位置，并且这个空白位置的值我们也不知道是什么，但是我们只要把黄色区域的值给预测正确不就行了，而空白位置我们可以认为预测的结果没有问题。

详细来说，用户因子矩阵$Q$和物品因子矩阵$P$的计算可以利用线性回归的思想，通过随机梯度下降的方式进行学习，迭代式地更新相关参数即可。使用SVD矩阵因子分解推荐算法对于评分稀疏矩阵也可以进行正常处理，对于没有评分的部分不用计算误差值，直接令误差值为0。

\[ \begin{aligned} & \hat{r}_{u i}=q_u p_i^T \quad e_{u i}=r_{u i}-\hat{r}_{u i} \\ & \min _{p, q} \frac{1}{2} \sum_{u, i}\left(r_{u, i}-q_u p_i^T\right)^2 \\ & p_i^{k+1}=p_i^k+\alpha \cdot e_{u i} \cdot q_u^k \\ & q_u^{k+1}=q_u^k+\alpha \cdot e_{u i} \cdot p_i^k \end{aligned} \] 这其实就是一个回归模型，只不过是按照矩阵分解的思路构建出来的。并且我们现在不用做矩阵分解了，我们还是用算法的思路去做，我们去构建预测值和实际值，然后计算误差，然后我们合并在一起，然后梯度下降求参，这样就可以了。

在普通的SVD求解过程中，和机器学习类似，我们也需要防止$Q$和$P$的隐因子值不能过大，所以我们加入正则化项；从而可以得到下列目标函数： \[ \begin{gathered} \hat{r}_{u i}=q_u p_i^T \quad e_{u i}=r_{u i}-\hat{r}_{u i} \\ \min _{q_s, p_*} \frac{1}{2}\left(\sum_{u, i}\left(r_{u, i}-q_u p_i^T\right)^2+\lambda\left(\left\|q_u\right\|^2+\left\|p_i\right\|^2\right)\right) \\ p_i^{k+1}=p_i^k+\alpha \cdot\left(e_{u i} \cdot q_u^k-\lambda \cdot p_i^k\right) \\ q_u^{k+1}=q_u^k+\alpha \cdot\left(e_{u i} \cdot p_i^k-\lambda \cdot q_u^k\right) \end{gathered} \]

BiasSVD

同普通的协同过滤算法一样，我们可以更改一下FunkSVD预测值公式，可以认为最终的预测值是在基准评分/偏置项基础上的一个变化，从而我们可以得到下列预测公式：

同样的我们可以得到一个加入正则化项后的目标函数：
\[ \begin{gathered} \hat{r}_{u i}=\mu+b_u+b_i+q_u p_i^T \\ e_{u i}=r_{u i}-\hat{r}_{u i} \\ \min _{q_u, p_i, b_u, b_i} \frac{1}{2}\left(\sum_{u, i}\left(r_{u, i}-\hat{r}_{u, i}\right)^2+\lambda\left(b_u^2+b_i^2+\left\|q_u\right\|^2+\left\|p_i\right\|^2\right)\right) \end{gathered} \] 通过梯度下降法，我们最终可以得到b、q、p的迭代计算公式： \[ \begin{gathered} e_{u i}=r_{u i}-\hat{r}_{u i}\ \ \ \ \ \min _{q_u, p_i, b_u, b_i} \frac{1}{2}\left(\sum_{u, i}\left(r_{u, i}-\hat{r}_{u, i}\right)^2+\lambda\left(b_u^2+b_i^2+\left\|q_u\right\|^2+\left\|p_i\right\|^2\right)\right) \\ b_u^{k+1}=b_u^k+\alpha \cdot\left(e_{u i}-\lambda \cdot b_u^k\right) \\ b_i^{k+1}=b_i^k+\alpha \cdot\left(e_{u i}-\lambda \cdot b_i^k\right) \\ p_i^{k+1}=p_i^k+\alpha \cdot\left(e_{u i} \cdot q_u^k-\lambda \cdot p_i^k\right) \\ q_u^{k+1}=q_u^k+\alpha \cdot\left(e_{u i} \cdot p_i^k-\lambda \cdot q_u^k\right) \end{gathered} \]

SVD++

SVD++算法是在BiasSVD算法的基础上加入了用户的隐式反馈；在BiasSVD矩阵分解中其实是没有考虑过用户隐式的反馈信息，比如浏览行为、点击行为等；所以可以在目标函数中加入这些隐式数据作为新的参数，从而得到一个新的预测公式为：

对于该公式同样可以使用梯度下降法分别求解出$bu$、$bi$、$qu$、$yj$、$pi$的值。 \[ \hat{r}_{ui}=\mu+b_u+b_i+\Bigg(q_u+\Bigg|I_u\Bigg|^{-\frac12}\sum_{j\in I_u}y_j\Bigg)p_i^T \]

$y_j$是与用户u互动过的物品 j 的潜在因子向量（也可称为隐式反馈向量）。
$\Bigg|I_u\Bigg|$ 是该集合中物品的数量

这样就相当于用户对于各个因子的这样一个偏好，不仅仅由用户本身的向量$q_u$表示，同时还和用户已经评论过的商品有关, 因为这些商品可能会有一些隐式的反馈。

SVD++的效果确实很好，不过它很大的一个问题就是速度很慢，几乎不能用。

用机器学习算法做推荐

因为机器学习算法输入的数据是特征属性矩阵，而我们在之前的推荐算法（协同过滤、矩阵分解、关联规则等）中使用的输入数据都是用户-物品评分矩阵，所以我们需要将用户-物品评分矩阵转化为特征属性矩阵。但是特征属性矩阵嘛，除了对用户id和物品id做独热编码之外，实际上来讲我们也会做一些其他的特征信息，类似于一些交叉的特征信息。

LR、FM、FMM

思考一个问题：

刚刚我们介绍到的LR、FM、FFM从算法论文上来讲，一般输入的特征都是离散化的类别特征（一般采用One-Hot处理）。那么如果现在存在连续特征，比如商品价格、用户年龄等，一般采用如何处理？为什么呢？

我们一般会将某些连续型数据进行分箱/分桶变成离散型的数据，然后再做onehot。因为分桶这个操作可以解耦不同特征取值的互斥问题，或者说耦合性。

针对问题1中的处理方式，有没有特例呢？

不是所有的连续型数据都要做分箱操作，当某些连续型特征的取值本身就有非常重要的实际含义，例如用户对某一类商品的点击率，这种连续型数据就不适合做分桶，这种情况下如果再做分桶的话就会把特征之间的差异性给完全抹平。

用深度学习算法做推荐

拓展——PMML

预测模型标记语言PMML（Predictive Model Markup Language）是一套与平台和环境无关的模型表示语言，是目前表示机器学习模型的实际标准。从2001年发布的PMML1.1，到2019年最新4.4，PMML标准已经由最初的6个模型扩展到了17个模型，并且提供了挖掘模型（Mining Model）来组合多模型。

作为一个开放的成熟标准，PMML由数据挖掘组织DMG（Data Mining Group）开发和维护，经过十几年的发展，得到了广泛的应用，有超过30家厂商和开源项目（包括SAS，IBM SPSS，KNIME，RapidMiner等主流厂商）在它们的数据挖掘分析产品中支持并应用PMML，这些厂商应用详情见下表：PMML Powered

PMML标准介绍

PMML是一套基于XML的标准，通过 XML Schema 定义了使用的元素和属性，主要由以下核心部分组成：

数据字典（Data Dictionary），描述输入数据。
数据转换（Transformation Dictionary和Local Transformations），应用在输入数据字段上生成新的派生字段。
模型定义（Model），每种模型类型有自己的定义。
输出（Output），指定模型输出结果。

PMML预测过程符合数据挖掘分析流程：

Recommended System

#Algorithm #Recommended System

Recommended system common algorithm

https://devgek.cn/2024/07/08/article/

Author

DXGEK

Posted on

July 8, 2024

Licensed under

Contact me Previous

Logistic Softmax Next

Recommended system common algorithm

本章内容

数据集：MovieLens

Python推荐算法框架：Surprise

推荐算法_ Normal Predictor

推荐算法_Baseline Only

推荐算法_协同过滤

1. 基于内容的相似度计算

2. 基于协同的方法

3. 混合方法

4. 社交网络信息

UserCF

ItemCF

矩阵分解

隐语义模型

SVD

FunkSVD

BiasSVD

SVD++

推荐算法_关联规则

Apriori

FP Tree

用机器学习算法做推荐

推荐算法—LR

推荐算法—GBDT+LR

推荐算法—FM（Factorization Machines）

逻辑回归 (LR)

决策树 (Decision Trees)

对比理解

向量召回

推荐算法—FFM

LR、FM、FMM

用深度学习算法做推荐

推荐算法_Wide&Deep

推荐算法_Deep&Cross

推荐算法_DeepFM

推荐算法_扩展

推荐算法_xDeepFM

推荐算法_DSSM

推荐算法_YoutubeNet

拓展——PMML