[关闭]
@changedi 2019-03-21T06:10:47.000000Z 字数 4542 阅读 1193

机器学习算法面试题目

机器学习


1.梯度下降算法的正确步骤是什么?

  1. 训练CNN时,可以对输入进行旋转、平移、缩放等预处理提高模型泛化能力。这么说是对,还是不对?
  2. 下面哪项操作能实现跟神经网络中Dropout的类似效果?
  3. 下列哪一项在神经网络中引入了非线性?
    https://zhuanlan.zhihu.com/p/39185031

  4. CNN的卷积核是单层的还是多层的?

  5. 什么是卷积?

  6. 什么是CNN的池化pool层?
  7. 什么是生成对抗网络。

https://zhuanlan.zhihu.com/p/39367605

  1. 请简要介绍下tensorflow的计算图
  2. 你有哪些deep learning(rnn、cnn)调参的经验?
  3. LSTM结构推导,为什么比RNN好?
  4. Sigmoid、Tanh、ReLu这三个激活函数有什么缺点或不足,有没改进的激活函数。

https://zhuanlan.zhihu.com/p/39450005

  1. 为什么引入非线性激励函数?
  2. 请问人工神经网络中为什么ReLu要好过于tanh和sigmoid function?
  3. 如何解决RNN梯度爆炸和弥散的问题?
  4. 什麽样的资料集不适合用深度学习?
    https://zhuanlan.zhihu.com/p/39533743

  5. 广义线性模型是怎被应用在深度学习中?

  6. 如何解决梯度消失和梯度膨胀?
  7. 深度学习常用方法。
    https://zhuanlan.zhihu.com/p/39619083

  8. 神经网络中激活函数的真正意义?一个激活函数需要具有哪些必要的属性?还有哪些属性是好的属性但不必要的?

  9. 梯度下降法的神经网络容易收敛到局部最优,为什么应用广泛?
  10. 简单说说CNN常用的几个模型。
  11. 什么是梯度爆炸?
    https://zhuanlan.zhihu.com/p/39703500

  12. 梯度爆炸会引发什么问题?

  13. 如何确定是否出现梯度爆炸?
  14. 如何修复梯度爆炸问题?
  15. LSTM神经网络输入输出究竟是怎样的?
  16. 什么是RNN?
    https://zhuanlan.zhihu.com/p/39881106

  17. 简单说下sigmoid激活函数

  18. rcnn、fast-rcnn和faster-rcnn三者的区别是什么
  19. 在神经网络中,有哪些办法防止过拟合?
  20. CNN是什么,CNN关键的层有哪些?
  21. GRU是什么?GRU对LSTM做了哪些改动?
    https://zhuanlan.zhihu.com/p/39965633

  22. 请简述应当从哪些方向上思考和解决深度学习中出现的的over fitting问题?

  23. 神经网络中,是否隐藏层如果具有足够数量的单位,它就可以近似任何连续函数?
  24. 为什么更深的网络更好?
  25. 更多的数据是否有利于更深的神经网络?
  26. 不平衡数据是否会摧毁神经网络?
    https://zhuanlan.zhihu.com/p/40051944

  27. 你如何判断一个神经网络是记忆还是泛化?

  28. 无监督降维提供的是帮助还是摧毁?
  29. 是否可以将任何非线性作为激活函数?
  30. 批大小如何影响测试正确率?
  31. 损失函数重要吗?
    https://zhuanlan.zhihu.com/p/40135356

  32. 初始化如何影响训练?

  33. 不同层的权重是否以不同的速度收敛?
  34. 正则化如何影响权重?
  35. 什么是fine-tuning?
  36. 请简单解释下目标检测中的这个IOU评价函数(intersection-over-union)
    https://zhuanlan.zhihu.com/p/40217488

  37. 什么是边框回归Bounding-Box regression,以及为什么要做、怎么做

  38. 请阐述下Selective Search的主要思想
  39. 什么是非极大值抑制(NMS)?
  40. 什么是深度学习中的anchor?
  41. CNN的特点以及优势
    https://zhuanlan.zhihu.com/p/40396143

  42. 深度学习中有什么加快收敛/降低训练难度的方法?

  43. 请简单说下计算流图的前向和反向传播
  44. 请写出链式法则并证明
  45. 请写出Batch Normalization的计算方法及其应用
  46. 神经网络中会用到批量梯度下降(BGD)吗?为什么用随机梯度下降(SGD)?
    https://zhuanlan.zhihu.com/p/40476884

  47. 在选择神经网络的深度时,下面哪些参数需要考虑?

  48. 当数据过大以至于无法在RAM中同时处理时,哪种梯度下降方法更加有效?
  49. 当在卷积神经网络中加入池化层(pooling layer)时,变换的不变性会被保留,是吗?
    https://zhuanlan.zhihu.com/p/41070455

  50. 输入图片大小为200×200,依次经过一层卷积(kernel size 5×5,padding 1,stride 2),pooling(kernel size 3×3,padding 0,stride 1),又一层卷积(kernel size 3×3,padding 1,stride 1)之后,输出特征图大小为

  51. 基于二次准则函数的H-K算法较之于感知器算法的优点是()?
  52. 在一个神经网络中,知道每一个神经元的权重和偏差是最重要的一步。如果知道了神经元准确的权重和偏差,便可以近似任何函数,但怎么获知每个神经的权重和偏移呢?
    https://zhuanlan.zhihu.com/p/41155891

  53. 如果我们用了一个过大的学习速率会发生什么?

  54. 在一个神经网络中,下面哪种方法可以用来处理过拟合?
  55. 批规范化(Batch Normalization)的好处都有啥?
  56. 下列哪个神经网络结构会发生权重共享?
    https://zhuanlan.zhihu.com/p/41242084

  57. 下列哪个函数不可以做激活函数?

  58. 假设我们有一个如下图所示的隐藏层。隐藏层在这个网络中起到了一定的降纬作用。假如现在我们用另一种维度下降的方法,比如说主成分分析法(PCA)来替代这个隐藏层。那么,这两者的输出效果是一样的吗?
  59. 假设你需要调整超参数来最小化代价函数(cost function),会使用下列哪项技术?
    https://zhuanlan.zhihu.com/p/41416712

  60. 在感知机中(Perceptron)的任务顺序是什么?

  61. 构建一个神经网络,将前一层的输出和它自身作为输入。下列哪一种架构有反馈连接?
  62. 如果增加多层感知机(Multilayer Perceptron)的隐藏层层数,分类误差便会减小。这种陈述正确还是错误?
  63. 在训练神经网络时,损失函数(loss)在最初的几个epochs时没有下降,可能的原因是?
    https://zhuanlan.zhihu.com/p/41504057

  64. 深度学习与机器学习算法之间的区别在于,后者过程中无需进行特征提取工作,也就是说,我们建议在进行深度学习过程之前要首先完成特征提取的工作。这种说法是:

  65. 下列哪一项属于特征学习算法(representation learning algorithm)?
  66. 提升卷积核(convolutional kernel)的大小会显著提升卷积神经网络的性能,这种说法是
    https://zhuanlan.zhihu.com/p/41586262

  67. 线性分类器与非线性分类器的区别以及优劣

  68. 简单说说贝叶斯定理
    https://zhuanlan.zhihu.com/p/30926070

  69. 说下红黑树的五个性质

  70. 简单说下sigmoid激活函数
    https://zhuanlan.zhihu.com/p/31097559

  71. 说说梯度下降法

  72. 梯度下降法找到的一定是下降最快的方向么?
  73. 什么是拟牛顿法
    https://zhuanlan.zhihu.com/p/31229539

  74. 说说共轭梯度法

  75. 什么最小二乘法?
  76. Python是如何进行内存管理的?
    https://zhuanlan.zhihu.com/p/31258681

  77. 说说常见的损失函数

  78. 简单介绍下logistics回归
    https://zhuanlan.zhihu.com/p/31305871

  79. 在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为10w条数据,负样本只有1w条数据,以下最合适的处理方法是( )
    https://zhuanlan.zhihu.com/p/31337162

  80. Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是
    https://zhuanlan.zhihu.com/p/31366886

  81. RNN是怎么从单层网络一步一步构造的的?
    https://zhuanlan.zhihu.com/p/31537794

  82. 标准化与归一化的区别?
    https://zhuanlan.zhihu.com/p/31607791

  83. 随机森林如何处理缺失值

  84. 随机森林如何评估特征重要性
  85. 优化Kmeans
  86. KMeans初始类簇中心点的选取
  87. 解释对偶的概念
  88. 如何进行特征选择?
    https://zhuanlan.zhihu.com/p/31682499

  89. 数据预处理

  90. 简单说说特征工程
    https://zhuanlan.zhihu.com/p/31725691

  91. 衡量分类器的好坏
    https://zhuanlan.zhihu.com/p/31797529

  92. 如何理解LSTM网络?
    https://zhuanlan.zhihu.com/p/32157649

  93. Bagging与Boosting的区别
    https://zhuanlan.zhihu.com/p/32226365

  94. L1与L2范数

  95. 正则化
  96. 特征比数据量还大时,选择什么样的分类器?
    https://zhuanlan.zhihu.com/p/32362052

  97. 数据清理中,处理缺失值的方法是?
    https://zhuanlan.zhihu.com/p/32396385

  98. 带核的SVM为什么能分类非线性问题?

  99. 常用核函数及核函数的条件:
  100. 逻辑回归相关问题
    https://zhuanlan.zhihu.com/p/32622819

  101. 什么是共线性, 跟过拟合有什么关联?

  102. 机器学习中,有哪些特征选择的工程方法?
    https://zhuanlan.zhihu.com/p/32656102

  103. bootstrap数据是什么意思?
    https://zhuanlan.zhihu.com/p/32738678

  104. 我们想在大数据集上训练决策树, 为了使用较少时间, 我们可以
    https://zhuanlan.zhihu.com/p/32808814

  105. 对于维度极低的特征,选择线性还是非线性分类器?
    https://zhuanlan.zhihu.com/p/33016414

  106. SVM、LR、决策树的对比

  107. 什么是ill-condition病态问题?
  108. 简述KNN最近邻分类算法的过程?
  109. 常用的聚类划分方式有哪些?列举代表算法。
    https://zhuanlan.zhihu.com/p/33057428

  110. 特征向量的归一化方法有哪些?
    https://zhuanlan.zhihu.com/p/33177339

  111. 优化算法及其优缺点?

  112. RF与GBDT之间的区别与联系?
  113. 下面哪个/些超参数的增加可能会造成随机森林数据过拟合?
    https://zhuanlan.zhihu.com/p/33206641

  114. ID3、C4.5、CART、随机森林、bagging、boosting、Adaboost、GBDT、xgboost算法总结
    https://zhuanlan.zhihu.com/p/34534004

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注