@hanxiaoyang 2016-10-09T06:49:24.000000Z 字数 1686 阅读 2800

20个问题分辨真假数据科学家

未分类

原文翻译：@Lizyjieshu
原文地址：https://www.quora.com/What-are-20-questions-to-detect-fake-data-scientists
校对调整：@apple @寒小阳

Quora answer from Jay Verkuilen, 心理测验学博士，数理统计硕士，伊利诺伊大学香槟分校

回答可能包含有数学公式或少量代码(R, Python, SQL等)，而不只是泛泛而谈的模糊内容。

我通常不会去看代码示例，因为好的代码通常都是具有目标性的，需要针对特定问题进行优化设计。但如果你想要知道些分辨数据科学家的问题，那可参考下文。这些问题难度都较大，更多是针对统计或建模，而不是数据处理本身。这些很重要，但会些代码的人可能更适合来写这些问题。

或许你可以试着把“我不知道，但我可以从阅读以下内容开始……”作为你答案的一部分，因为这也是在测试候选人的诚实与正直。一家组织最不想要的人就是那些夸张自己的能力或纯粹胡编乱造的虚假人才。

注（我留意到回复中关于这一点的讨论很火热）：这些问题都不是最终的或是具备代表性的问题，只是基于我自己专业领域提出来的。这些是问题的原型，使用时应该在此基础上进行编辑和改进。若针对你通常处理的数据类型，你需要在问题中加上更多细节描述。

解释什么是正规化（regularization）以及它的用处。解释特定方法的优劣势，如岭回归（ridge regression）和LASSO算法？
解释什么是局部优化（local optimum）以及为什么它在特定情况，如K均值聚类，是很重要的。具体有哪些方法能确定你是不是真的遇到了局部优化问题？用什么方法可以避免局部最优解？
假设你需要使用多次回归来为一个定量分析结果中的变量建立预测模型，请解释你将如何来验证该模型。
解释什么是准确率（precision）和召回率（recall），它们和ROC曲线有什么关联？
解释什么是长尾分布并举出三个相关案例。为什么它们在分类和预测问题中很重要？
什么是隐语义分析（latent semantic indexing）？其主要是用来做什么的？这种方式的局限性是什么？
中心极限理论是什么？其重要性是什么？在何种情况下会失效？
统计功效（statistical power）是什么？
解释什么是重采样法（resampling methods）以及它的用处和局限性。
解释含softmax activation的人工神经网络（artificial neural networks ）、逻辑回归及最大熵分类器的区别。
解释选择性偏差（这里指特定数据库而不是随机选择）及其重要性。解释缺失数据处理等数据管理流程是如何让这种偏差变得更严重的？
举例说明实验设计是如何帮助解决行为问题的。例如解释实验设计如何帮助优化网络页面。如何将实验数据和观测数据作对比？
解释“长格式数据”和“宽格式数据”的不同，为什么你选择使用其中某一种？
对缺失数据使用均数填补法（mean imputation）是可行的么？为什么？
解释Edward Tufte 的“chart junk”理论。
什么是异常值？解释你是如何在数据库中寻找异常值以及找到后是如何处理的。
什么是主成分分析（PCA）?阐述你会用PCA来解决何种问题，以及这种方法的局限性。
假如你拥有一家客户呼叫服务中心的来电时长数据，你打算如何编码并分析这些数据？描述一个这些电话时长数据可能呈现的分布场景，你将如何验证（最好是能图形化地展现）这个分布场景的正确性？
解释什么是“误报”（false positive）和“漏报”（false negative）。区分这两者的重要性是什么？分别对以下场景举例：（1）误报比漏报更重要（2）漏报比误报更重要（3）两者同样重要。
解释管理数据集(administrative datasets)和实验中收集的数据集(datasets gathered from experimental studies)之间可能的差异。有哪些是管理数据可能碰到的问题？实验是如何帮助减轻这些问题的？但随之又会带来哪些其他问题？

20个问题分辨真假数据科学家

内容目录

选择主题