@EVA001 2018-10-18T09:58:25.000000Z 字数 4844 阅读 534

在此处输入标题

未分类

正如所承诺的，在这里，我回复了一封详细的邮件，内容是关于我对你的问题/建议的回答，以及关于如何前进的建议。

首先，我已经设法和一位同事讨论了你的简历和相关的成绩，我想用其中的两个来做这个，但是一个已经下班了。不过，我们对你的简介很满意！你显然有很强的动机，你来自一个非常优秀的大学，你有相关领域的经验来可视化（图，图像，计算机图形，编码），你的成绩看起来很好。所以，首先，我非常热心地希望找到一个共同感兴趣的话题以便提交一个CSC的申请。关于你的信息，我不知道我是否已经说过了，但是我们的团队今年已经在CSC合作方面取得了很好的成绩。我们招募了4名CSC的学生（ “类似的”，因为两个是访问职位，也就是说，不是完整的博士职位，在这里我作为一个单独的职位把他们加起来了）。

现在，关于你感兴趣的话题：我将结合你之前的邮件进行评论，因为这样更容易回答你的问题。
你是对的，但是请允许我以稍微不同的方式来表达我的兴趣方向，这样你就能更好地理解。

我正在研究两个主要方向：

形状/图像分析[shape/image analysis]
信息可视化/可视化分析[information visualization/visual analytics]。

在第一个方向上，我的主要兴趣在形状骨架的计算和应用及其简化、清理、分析和处理2D图像和3D图形。在我的出版物列表中，请参阅我的所有包括“skeleton”一词的文章，www。cs。rug。nl/alext/PAPERS。在这里，我们开发出了世界上最快/最精确/最简单的方法来使用2D图像和3D图形的骨架化方法。

在第二个方向上，我主要感兴趣的是
a）对非常大的关系数据（大型图/网络、带属性的图、依赖于时间的图数据等）的可视化。
在这里，我们开发了世界上最好的（最快/最可定制的）图绑定方法。
b）对高维数据的可视化（主要使用多维投影）。
在这里，我们开创了一些将投影质量可视化的方法。
c）机器学习的视觉分析
这是一个虽然较新但已有很多成果的领域。
我们的想法是在这里使用infovis的技术（适合的），以便更好地理解机器学习算法（例如分类器、预测器）是如何工作的，并最终改进它们（例如，使它们工作时具有更少的错误、运行更健壮、需要更少的标签样本等）。参见我的出版物列表中与Rauber合著的所有论文。

同意你的观点。如果我看一下上面提到的主题，我想说，你更接近于，更感兴趣的是我们工作的第二个方向（视觉分析/信息可视化）。现在，最好仍然要看我上面提到的子方向（a-c）符合你的兴趣和知识。对我来说，它们都是同样有趣，同样能够提供一流的研究和伟大的成果，所以我们必须根据你觉得更有趣的东西来决定。

让我试着详细说明一下这些方向，这样我们就可以一步一步地进行下去了。选择一个有趣的方向，然后在那个方向选择一个连贯的主题，并基于此写一个提案。顺便说一下，我在三个方向上都有很多有趣的话题，但是，如果我们已经提前决定我们要选择一个方向，那就没有意义了。所以：

a）对非常大的关系数据的可视化

我们在这里成功地得到了两个主要的成果：

a1）使用边捆绑简化的图布局：可以参见我列表中包有“bundling”这个词的文章。关于这一领域的最新概述，请参阅与Lhuillier合作撰写的调查报告。
真正有效的是，我们对此非常满意，是计算的可伸缩性。我们现在可以在GPU上实时地将数百万条边的图形捆绑在一起。当然，你可以做得更快，但我不认为速度是现在主要的问题，还有其他重要的事情。另外，这里的另一个主要成果是建立了捆绑的理论基础，我们将其与其他著名的图形和视觉研究领域联系起来，如骨架化skeletonization和平含义转换聚类。那么，边捆绑面临的挑战是什么呢？我能看到一些：

constrained bundling：如何在不同的边/路径上进行不同的捆绑，取决于这些数据的属性，或者在这些属性中想要的最大弯曲。
这是非常重要的，因为在某些情况下，你不会想要扭曲一个给定的输入图，画的比一定的量要多。
bundling quality：到目前为止，还没有明确的框架来衡量捆绑的质量。这真的很奇怪，因为有几十种这样的方法。因此，我有一些想法，关于how to imagine metrics和用户实验，以定量地衡量一个捆绑的布局有多好（例如，对于一个给定的任务，或是普遍的任务）。
这与image分析很好地联系在一起，因为我计划与image处理操作符一起工作来测量边捆绑的质量。
applications：我们在软件可视化、空中交通管制和对眼球轨迹的分析中成功使用了边捆绑。
但是，还有更多的领域可以使用边捆绑（想想任何可以生成一组轨迹/边作为输出的字段！）
探索捆绑在不同应用领域的优势总是很有趣的。

a2）图布局：请参阅由Kruiger（2017）共同撰写的t-SNE的图布局的论文。这是另一个有趣的联系，我们在多维投影（如t-SNE）和图绘制之间做了一个类比，我们使用了一个工具来分析多维数据，实际上做了一些非常不同的事情，这就是（绘制）图！但这只是一个开始的“实验”，还可以做更多的工作，例如

分析其他已存在的（40+）算法的计算投影，更好地看到哪些算法给出哪个布局及哪个算法的布局更好。
用不同距离的度量来获得高质量的图布局
为什么不结合捆绑和布局在同一操作?现在，对于一个图形，你先把它放出来，然后把它的边捆起来。但是，既然我们有一个非常好的/快速的捆绑框架，为什么不使用它来合并这两个步骤呢？也许捆绑可以帮助绘制图（！）

b）对高维数据的可视化

为了以理解这部分，想想数据表，其中的行给出了observations（数据点）和列给出了所有观察的维度（attrributes）。如何在数据表有数十乃至上千的rows时可视化它？解决方案（产生很久了）称为多维投影（MPs）。这些方法可以将高维的观测数据简化为一个低（2D或3D）维度的散点图scatterplot，因此在二维和三维空间中，在原始数据空间中相似的点被放置在彼此靠近的地方。想想PCA或最近的t-SNE之类的方法。目前，这些方法是唯一存在的工具，它可以让我们正确地研究高维数据。然而，它们有很多限制，所以我们可以解决其中的一些问题：

b1）可伸缩性Scalability：一般来说，最快的MP方法也是质量最差的（如PCA），而质量最高的方法是非常慢的（t-SNE）。简单地说，我们可以想出一些聪明的方法来获得高速和高质量吗？这当然是一个很大的话题，所以，我们要讨论人们接下来会采用哪种方法来实现这一目标（例如，并行化，在一些部分使用近似投影，然后当放大，显示更多数据需求时使用增量投影，即项目只有部分的数据，等等）。对我来说，最大的目标是拥有一种“谷歌地球”工具，可以让你顺畅地导航，但不是在3D数据（地球）中，而是在100D或500D数据（！）

b2）可解释性Explainability：好，我们现在有一个投影，它将把一个100D数据集减少到一个2D点云（散点图）。然后我们看到一些模式，例如聚簇clusters。但。。这些是什么意思？数据的哪些维度，我们能看到初始维度中的数据出现在那里了吗？在我的论文列表中，可以看到Martins， Coimbra， and Da Silva的论文。我们的想法是想象一种新的交互式解释工具，它告诉用户投影散点图的含义是什么。当你在一个二维投影中选择一个小的点集时，想象下你可以通过某些东西来告诉你一个关于100维数据的故事，其是很具有挑战性的。

c）机器学习的视觉分析（VA）

这可能是目前最热门的话题了。特别是深度学习（DL）增长飞快，与人工神经网络能够解决许多复杂的问题，从游戏到诊断病人到分类图片，等。然而，当前的工作方式有些严重的问题，可视化可以在这方面有所帮助:

c1）透明性Transparency：假设你建立了一个DL网络，你训练它，测试它，然后它在某些情况下工作得很好，但在另一些情况下却不是很好。为什么不好呢?有什么问题吗?作为一个开发者和训练者，你需要怎样的改变来解决这些问题呢?我们什么都不知道。DL现在就像一个黑盒——它不知什么原因学会了一些东西，然后如果它工作得很好，一切都很好，但如果不行，设计者只能是简单地尝试随机改变架构、参数、训练数据，希望它能更好地工作。对此，我们可以做得更好——首先看看我的论文列表上的Rauber和Falcao关于可视化人工神经网络的隐藏结构的论文。这是一个非常简单的事情，但它非常受欢迎（!）这个想法会延长这类方法——很想通过类似的方法为一个复杂程序提供一个可视化调试器:我们将设计和使用可视化工具来打开神经网络，看看会发生什么，理解它的问题，然后我们可以解决这些问题。

c2）训练Training：在大多数情况下，ML分类器通过被标记的数据学习，从这些数据构建其内部所谓的so-called决策函数。很好。但。。有时候，获取这样的标签数据代价是非常昂贵的（想想如果你的数据是病人的记录，他们需要被一个非常忙的医生标记为健康或疾病）。我们能做得更好吗?是的，这个想法实际上是询问ML工具需要什么样的数据来进行训练，例如，询问在对现有样本进行分类时发现了什么问题，以及为什么会出现这些问题。如果你能以可视化的方式向训练者提出这些问题（关于工具），那么人类就能给机器提供机器真正需要的训练信息，因此，训练变得更快，代价更低。我们在这个方向做了一些非常简单的事情，请参阅最近与Benato和Falcao的论文。但我们的想法是扩展这种交互式可视化技术，使机器（DL工具）基本上可以直接与训练者沟通，这样训练者就可以在训练过程中看到很多问题并及时帮助他们。这样，即使是在标签样本昂贵的领域，整个训练过程也变的切实可行。

你的建议没有问题:我会等待你对你最感兴趣的主题（a、b、c）的反馈意见。在选择时，请考虑：

你与该主题相关的技能（为了更好地理解这几方面的意思，只需提前浏览一些关于该主题的论文；如果你选择了这个主题，你需要理解然后写类似的东西。
你的优点和缺点（例如，你在编码时是否感到更自信?或者是数学建模?你喜欢建立用户研究吗?或者更多的运行基准?等）
你的一般喜好；你应该有一个明确的想法告诉你自己“比起Y领域，我更喜欢X领域的问题/技术/等等

总的来说，为了帮助您，这些主题大致有以下特征:

a）大型关系数据的可视化

典型的infovis主题；非常以技术为中心，所以你应该对以下内容超级有信心：编码（最好是C/ c++ / c#），数据结构和算法，代码优化（像是学习/使用GPU并行化，图像处理，高级图形处理，等等
这是一个非常适合喜欢游戏开发，图形现实主义，图像处理的人的主题
数学相当容易

b）高维数据的可见性

介于数据科学和信息可视化之间；你也应该对编码很有信心，虽然GPU计算/编码可能不是什么大问题
涉及到的技术/语言更广泛，例如C，C++，C#， Python， R
涉及到的计算机图形比（a）少一点
数学肯定比（a）更复杂；例如，期望学习更多关于统计和线性代数的知识

c）机器学习的视觉分析

在（a）和（b）之间的一个领域
你应该知道了解一些机器学习的东西，或者非常愿意学习机器学习（分类器，训练/测试/验证，假设细化，神经网络，准确性/AUROC，和其他类似的技术）
图形编码比a和b更容易；不需要super-fast-and-interactive的图形编码，因为ML算法无论如何都不是实时的
相比于（b）来说，数学方面是容易或困难，取决于你如何看待
这是一个非常热门的领域（如前所述），所以在这个领域有很多的成长前景和好的职位/发展。

当然，我们也不需要纯粹的a、b或c，我们可以在项目中混合一些主题。所以，在周一，你不仅要告诉我哪一个是（a，b，c），还要反思我上面写的内容，也就是说，你要公开诚实地评估你在（a，b，c）项下的强项/弱项。这样我也可以看到你最适合的地方，所以我可以建议你做最后的选择。

在此处输入标题

内容目录

选择主题