  如果你是一个机器学习社区的活跃成员,你一定知道 提升机器(Boosting Machine)以及它们的能力。提升机器从AdaBoost发展到目前最流行的XGBoost。XGBoost实际上已经成为赢得在Kaggle比赛中公认的算法。这很简单,因为他极其强大。但是,如果数据量极其的大,XGBoost也需要花费很长的时间去训练。
  绝大多数人可能对 Light Gradient Boosting 不熟悉,但是读完本文后你就会对他们很熟悉。一个很自然的问题将进入你的思索:为什么又会出现另一个提升机器算法?它比XGBoost要好吗?

注意:本文假设读者已经对 GBMs 和 XGBoost 算法有一定的了解。如果你不了解他们,请先了解一下他们的原理再来学习本文。

1. 什么是LightGBM

  因为他是基于决策树算法的,它采用最优的leaf-wise策略分裂叶子节点,然而其它的提升算法分裂树一般采用的是depth-wise或者level-wise而不是leaf-wise。因此,在LightGBM算法中,当增长到相同的叶子节点,leaf-wise算法比level-wise算法减少更多的loss。因此导致更高的精度,而其他的任何已存在的提升算法都不能够达。与此同时,它的速度也让人感到震惊,这就是该算法名字 Light 的原因。



  Leaf-Wise分裂导致复杂性的增加并且可能导致过拟合。但是这是可以通过设置另一个参数 max-depth 来克服,它分裂产生的树的最大深度。
  接下来我们将介绍安装LightGBM的步骤使用它来跑一个模型。我们将对比LightGBM和XGBoost的实验结果来证明你应该使用LightGBM在一种轻轻的方式(Light Manner)。

2. LightGBM的优势


  1. 更快的训练速度和更高的效率: LightGBM使用基于直方图的算法。例如,它将连续的特征值分桶(buckets)装进离散的箱子(bins),这是的训练过程中变得更快。

  2. 更低的内存占用:使用离散的箱子(bins)保存并替换连续值导致更少的内存占用。

  3. 更高的准确率(相比于其他任何提升算法) : 它通过leaf-wise分裂方法产生比level-wise分裂方法更复杂的树,这就是实现更高准确率的主要因素。然而,它有时候或导致过拟合,但是我们可以通过设置 max-depth 参数来防止过拟合的发生。

  4. 大数据处理能力: 相比于XGBoost,由于它在训练时间上的缩减,它同样能够具有处理大数据的能力。

  5. 支持并行学习

3. 安装LightGBM


3.1 Windows

  对于Windows操作系统,由于其并非开源操作系统,因此一直以来Windows系统对开发者来说并不友好。我们需要安装相应的编译环境才能对LightGBM源代码进行编译。对于Windows下的底层C/C++编译环境,目前主要有微软自己的Visual Studio(或者MSBuild)或者开源的MinGW64,下面我们依次介绍这两种编译环境下的LightGBM的安装。

  1. git clone --recursive https://github.com/Microsoft/LightGBM
  2. cd LightGBM
  3. mkdir build
  4. cd build
  6. cmake --build . --target ALL_BUILD --config Release

最终编译生成的exe和dll会在 LightGBM/Release 目录下。

  1. git clone --recursive https://github.com/Microsoft/LightGBM
  2. cd LightGBM
  3. mkdir build
  4. cd build
  5. cmake -G "MinGW Makefiles" ..
  6. mingw32-make.exe -j

最终编译生成的exe和dll会在 LightGBM/ 目录下。

3.2 Linux


  1. git clone --recursive https://github.com/Microsoft/LightGBM
  2. cd LightGBM
  3. mkdir build
  4. cd build
  5. cmake ..
  6. make -j

3.3 macOS


  1. brew install cmake
  2. brew install gcc --without-multilib
  3. git clone --recursive https://github.com/Microsoft/LightGBM
  4. cd LightGBM
  5. mkdir build
  6. cd build
  7. cmake ..
  8. make -j


4. LightGBM的重要参数

5. LightGBM与XGBoost对比

  在这里我们使用的数据集来自很多国家的个人信息。我们的目标是基于其他的基本信息来预测每个人的年收入是否超过50K(<=50K 和 >50K两种)。该数据集包含32561个被观测者和14个描述每个个体的特征。这里是数据集的链接: http://archive.ics.uci.edu/ml/datasets/Adult

  1. #importing standard libraries
  2. import numpy as np
  3. import pandas as pd
  4. from pandas import Series, DataFrame
  5. #import lightgbm and xgboost
  6. import lightgbm as lgb
  7. import xgboost as xgb
  8. #loading our training dataset 'adult.csv' with name 'data' using pandas
  9. data=pd.read_csv('adult.csv',header=None)
  10. #Assigning names to the columns
  11. data.columns=['age','workclass','fnlwgt','education','education-num','marital_Status','occupation','relationship','race','sex','capital_gain','capital_loss','hours_per_week','native_country','Income']
  12. #glimpse of the dataset
  13. data.head()
  14. # Label Encoding our target variable
  15. from sklearn.preprocessing import LabelEncoder,OneHotEncoder
  16. l=LabelEncoder()
  17. l.fit(data.Income)
  18. l.classes_
  19. data.Income=Series(l.transform(data.Income)) #label encoding our target variable
  20. data.Income.value_counts()
  21. #One Hot Encoding of the Categorical features
  22. one_hot_workclass=pd.get_dummies(data.workclass)
  23. one_hot_education=pd.get_dummies(data.education)
  24. one_hot_marital_Status=pd.get_dummies(data.marital_Status)
  25. one_hot_occupation=pd.get_dummies(data.occupation)
  26. one_hot_relationship=pd.get_dummies(data.relationship)
  27. one_hot_race=pd.get_dummies(data.race)
  28. one_hot_sex=pd.get_dummies(data.sex)
  29. one_hot_native_country=pd.get_dummies(data.native_country)
  30. #removing categorical features
  31. data.drop(['workclass','education','marital_Status','occupation','relationship','race','sex','native_country'],axis=1,inplace=True)
  32. #Merging one hot encoded features with our dataset 'data'
  33. data=pd.concat([data,one_hot_workclass,one_hot_education,one_hot_marital_Status,one_hot_occupation,one_hot_relationship,one_hot_race,one_hot_sex,one_hot_native_country],axis=1)
  34. #removing dulpicate columns
  35. _, i = np.unique(data.columns, return_index=True)
  36. data=data.iloc[:, i]
  37. #Here our target variable is 'Income' with values as 1 or 0.
  38. #Separating our data into features dataset x and our target dataset y
  39. x=data.drop('Income',axis=1)
  40. y=data.Income
  41. #Imputing missing values in our target variable
  42. y.fillna(y.mode()[0],inplace=True)
  43. #Now splitting our dataset into test and train
  44. from sklearn.model_selection import train_test_split
  45. x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=.3)

5.1 使用XGBoost

  1. #The data is stored in a DMatrix object
  2. #label is used to define our outcome variable
  3. dtrain=xgb.DMatrix(x_train,label=y_train)
  4. dtest=xgb.DMatrix(x_test)
  5. #setting parameters for xgboost
  6. parameters={'max_depth':7, 'eta':1, 'silent':1,'objective':'binary:logistic','eval_metric':'auc','learning_rate':.05}
  7. #training our model
  8. num_round=50
  9. from datetime import datetime
  10. start = datetime.now()
  11. xg=xgb.train(parameters,dtrain,num_round)
  12. stop = datetime.now()
  13. #Execution time of the model
  14. execution_time_xgb = stop-start
  15. print(execution_time_xgb)
  16. #datetime.timedelta( , , ) representation => (days , seconds , microseconds)
  17. #now predicting our model on test set
  18. ypred=xg.predict(dtest)
  19. print(ypred)
  20. #Converting probabilities into 1 or 0
  21. for i in range(0,9769):
  22. if ypred[i]>=.5: # setting threshold to .5
  23. ypred[i]=1
  24. else:
  25. ypred[i]=0
  26. #calculating accuracy of our model
  27. from sklearn.metrics import accuracy_score
  28. accuracy_xgb = accuracy_score(y_test,ypred)
  29. print(accuracy_xgb)

5.2 使用LightGBM

  1. train_data=lgb.Dataset(x_train,label=y_train)
  2. setting parameters for lightgbm
  3. param = {'num_leaves':150, 'objective':'binary','max_depth':7,'learning_rate':.05,'max_bin':200}
  4. param['metric'] = ['auc', 'binary_logloss']
  5. #Here we have set max_depth in xgb and LightGBM to 7 to have a fair comparison between the two.
  6. #training our model using light gbm
  7. num_round=50
  8. start=datetime.now()
  9. lgbm=lgb.train(param,train_data,num_round)
  10. stop=datetime.now()
  11. #Execution time of the model
  12. execution_time_lgbm = stop-start
  13. print(execution_time_lgbm)
  14. #predicting on test set
  15. ypred2=lgbm.predict(x_test)
  16. print(ypred2[0:5]) # showing first 5 predictions
  17. #converting probabilities into 0 or 1
  18. for i in range(0,9769):
  19. if ypred2[i]>=.5: # setting threshold to .5
  20. ypred2[i]=1
  21. else:
  22. ypred2[i]=0
  23. #calculating accuracy
  24. accuracy_lgbm = accuracy_score(ypred2,y_test)
  25. accuracy_lgbm
  26. y_test.value_counts()
  27. from sklearn.metrics import roc_auc_score
  28. #calculating roc_auc_score for xgboost
  29. auc_xgb = roc_auc_score(y_test,ypred)
  30. print(auc_xgb)
  31. #calculating roc_auc_score for light gbm.
  32. auc_lgbm = roc_auc_score(y_test,ypred2)
  33. auc_lgbm comparison_dict = {'accuracy score':(accuracy_lgbm,accuracy_xgb),'auc score':(auc_lgbm,auc_xgb),'execution time':(execution_time_lgbm,execution_time_xgb)}
  34. #Creating a dataframe ‘comparison_df’ for comparing the performance of Lightgbm and xgb.
  35. comparison_df = DataFrame(comparison_dict)
  36. comparison_df.index= ['LightGBM','xgboost']
  37. print(comparison_df)

5.3 性能对比


算法 accuracy score auc score 执行时间(S)
LightGBM 0.861501 0.764492 0.283759
XGBoost 0.861398 0.764284 2.047220


5.4 详细对比

对比项 XGBoost LightGBM
正则化 L1/L2 L1/L2
列采样 yes yes
Exact Gradient yes yes
近似算法 yes no
稀疏数据 yes yes
分布式并行 yes yes
缓存 yes no
out of core yes no
加权数据 yes yes
树增长方式 level-wise leaf-wise
基于算法 pre-sorted histgram
dropout no yes
Bagging yes yes
用途 回归、分类、rank 回归、分类、lambdrank
GPU支持 no yes
网络通信 point-to-point collective-communication
CategoricalFeatures 无优化 优化
Continued train with input GBDT model no yes
Continued train with input no yes
Early Stopping(both training and prediction) no yes

