[关闭]
@zqbinggong 2018-05-02T22:36:39.000000Z 字数 962 阅读 863

机器学习 面经

未分类


  1. LR为什么用sigmoid函数。这个函数有什么优点和缺点?为什么不用其他函数

    • 因为这个函数任意阶可导的凸函数,有很好的数学性质,现有的许多数值优化算法都可直接用于求解最优解
    • 导数容易计算
    • 关于指数簇,这个函数形式的由来可以根据指数簇和GLMs的定义得来;在这里LR假定满足伯努利分布,而伯努利分布属于指数簇,因而根据GLMS的定义可以导出假设函数的形式为sigmod
    • LR的优点: 直接对分类可能性进行建模,而无需事先假设数据分布;另外,预测类别的同时还给出了类别的概率,这对许多需要概率辅助的任务很有用
  2. SVM原问题和对偶问题关系

    • 对偶问题得到的是原问题解的下界
    • 满足KTT时,这个原问题解的下界就是原问题的解
    • KKT条件:
    • 通过软间隔来减少过拟合,并且可以选择hinge函数来作为替代损失,因为hinge损失使得支持向量机的解具有稀疏性
    • 与LR的对比,后者可以直接用到多分类任务,前者需要进行推广;后者预测开销大;
  3. 决策树

    • pass
  4. k-means聚类

  5. 为了防止过拟合,我们需要用到一些方法,如:early stopping、数据集扩增(Data augmentation)、正则化(Regularization)、Dropout cross validation等。

  6. 聚类算法

    • k-means、
    • 学习向量量化 假设样本具有类别标记,利用监督信息来进行辅助分类
    • 高斯混合聚类 不同于前两者刻画聚类结构,此处采用概率模型来表达聚类原型、
    • 密度聚类
  7. 决策树、SVM、AdaBoost方法的比较

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注