@EVA001
2018-10-18T09:58:25.000000Z
字数 4844
阅读 349
未分类
正如所承诺的,在这里,我回复了一封详细的邮件,内容是关于我对你的问题/建议的回答,以及关于如何前进的建议。
首先,我已经设法和一位同事讨论了你的简历和相关的成绩,我想用其中的两个来做这个,但是一个已经下班了。不过,我们对你的简介很满意!你显然有很强的动机,你来自一个非常优秀的大学,你有相关领域的经验来可视化(图,图像,计算机图形,编码),你的成绩看起来很好。所以,首先,我非常热心地希望找到一个共同感兴趣的话题以便提交一个CSC的申请。关于你的信息,我不知道我是否已经说过了,但是我们的团队今年已经在CSC合作方面取得了很好的成绩。我们招募了4名CSC的学生( “类似的”,因为两个是访问职位,也就是说,不是完整的博士职位,在这里我作为一个单独的职位把他们加起来了)。
现在,关于你感兴趣的话题:我将结合你之前的邮件进行评论,因为这样更容易回答你的问题。
你是对的,但是请允许我以稍微不同的方式来表达我的兴趣方向,这样你就能更好地理解。
我正在研究两个主要方向:
信息可视化/可视化分析[information visualization/visual analytics]。
在第一个方向上,我的主要兴趣在形状骨架的计算和应用及其简化、清理、分析和处理2D图像和3D图形。在我的出版物列表中,请参阅我的所有包括“skeleton”一词的文章,www。cs。rug。nl/alext/PAPERS。在这里,我们开发出了世界上最快/最精确/最简单的方法来使用2D图像和3D图形的骨架化方法。
在第二个方向上,我主要感兴趣的是
a)对非常大的关系数据(大型图/网络、带属性的图、依赖于时间的图数据等)的可视化。
在这里,我们开发了世界上最好的(最快/最可定制的)图绑定方法。
b)对高维数据的可视化(主要使用多维投影)。
在这里,我们开创了一些将投影质量可视化的方法。
c)机器学习的视觉分析
这是一个虽然较新但已有很多成果的领域。
我们的想法是在这里使用infovis的技术(适合的),以便更好地理解机器学习算法(例如分类器、预测器)是如何工作的,并最终改进它们(例如,使它们工作时具有更少的错误、运行更健壮、需要更少的标签样本等)。参见我的出版物列表中与Rauber合著的所有论文。
同意你的观点。如果我看一下上面提到的主题,我想说,你更接近于,更感兴趣的是我们工作的第二个方向(视觉分析/信息可视化)。现在,最好仍然要看我上面提到的子方向(a-c)符合你的兴趣和知识。对我来说,它们都是同样有趣,同样能够提供一流的研究和伟大的成果,所以我们必须根据你觉得更有趣的东西来决定。
让我试着详细说明一下这些方向,这样我们就可以一步一步地进行下去了。选择一个有趣的方向,然后在那个方向选择一个连贯的主题,并基于此写一个提案。顺便说一下,我在三个方向上都有很多有趣的话题,但是,如果我们已经提前决定我们要选择一个方向,那就没有意义了。所以:
a)对非常大的关系数据的可视化
我们在这里成功地得到了两个主要的成果:
a1)使用边捆绑简化的图布局:可以参见我列表中包有“bundling”这个词的文章。关于这一领域的最新概述,请参阅与Lhuillier合作撰写的调查报告。
真正有效的是,我们对此非常满意,是计算的可伸缩性。我们现在可以在GPU上实时地将数百万条边的图形捆绑在一起。当然,你可以做得更快,但我不认为速度是现在主要的问题,还有其他重要的事情。另外,这里的另一个主要成果是建立了捆绑的理论基础,我们将其与其他著名的图形和视觉研究领域联系起来,如骨架化skeletonization和平含义转换聚类。那么,边捆绑面临的挑战是什么呢?我能看到一些:
a2)图布局:请参阅由Kruiger(2017)共同撰写的t-SNE的图布局的论文。这是另一个有趣的联系,我们在多维投影(如t-SNE)和图绘制之间做了一个类比,我们使用了一个工具来分析多维数据,实际上做了一些非常不同的事情,这就是(绘制)图!但这只是一个开始的“实验”,还可以做更多的工作,例如
b)对高维数据的可视化
为了以理解这部分,想想数据表,其中的行给出了observations(数据点)和列给出了所有观察的维度(attrributes)。如何在数据表有数十乃至上千的rows时可视化它?解决方案(产生很久了)称为多维投影(MPs)。这些方法可以将高维的观测数据简化为一个低(2D或3D)维度的散点图scatterplot,因此在二维和三维空间中,在原始数据空间中相似的点被放置在彼此靠近的地方。想想PCA或最近的t-SNE之类的方法。目前,这些方法是唯一存在的工具,它可以让我们正确地研究高维数据。然而,它们有很多限制,所以我们可以解决其中的一些问题:
b1)可伸缩性Scalability:一般来说,最快的MP方法也是质量最差的(如PCA),而质量最高的方法是非常慢的(t-SNE)。简单地说,我们可以想出一些聪明的方法来获得高速和高质量吗?这当然是一个很大的话题,所以,我们要讨论人们接下来会采用哪种方法来实现这一目标(例如,并行化,在一些部分使用近似投影,然后当放大,显示更多数据需求时使用增量投影,即项目只有部分的数据,等等)。对我来说,最大的目标是拥有一种“谷歌地球”工具,可以让你顺畅地导航,但不是在3D数据(地球)中,而是在100D或500D数据(!)
b2)可解释性Explainability:好,我们现在有一个投影,它将把一个100D数据集减少到一个2D点云(散点图)。然后我们看到一些模式,例如聚簇clusters。但。 。这些是什么意思?数据的哪些维度,我们能看到初始维度中的数据出现在那里了吗?在我的论文列表中,可以看到Martins, Coimbra, and Da Silva的论文。我们的想法是想象一种新的交互式解释工具,它告诉用户投影散点图的含义是什么。当你在一个二维投影中选择一个小的点集时,想象下你可以通过某些东西来告诉你一个关于100维数据的故事,其是很具有挑战性的。
c)机器学习的视觉分析(VA)
这可能是目前最热门的话题了。特别是深度学习(DL)增长飞快,与人工神经网络能够解决许多复杂的问题,从游戏到诊断病人到分类图片,等。然而,当前的工作方式有些严重的问题,可视化可以在这方面有所帮助:
c1)透明性Transparency:假设你建立了一个DL网络,你训练它,测试它,然后它在某些情况下工作得很好,但在另一些情况下却不是很好。为什么不好呢?有什么问题吗?作为一个开发者和训练者,你需要怎样的改变来解决这些问题呢?我们什么都不知道。DL现在就像一个黑盒——它不知什么原因学会了一些东西,然后如果它工作得很好,一切都很好,但如果不行,设计者只能是简单地尝试随机改变架构、参数、训练数据,希望它能更好地工作。对此,我们可以做得更好——首先看看我的论文列表上的Rauber和Falcao关于可视化人工神经网络的隐藏结构的论文。这是一个非常简单的事情,但它非常受欢迎(!)这个想法会延长这类方法——很想通过类似的方法为一个复杂程序提供一个可视化调试器:我们将设计和使用可视化工具来打开神经网络,看看会发生什么,理解它的问题,然后我们可以解决这些问题。
c2)训练Training:在大多数情况下,ML分类器通过被标记的数据学习,从这些数据构建其内部所谓的so-called决策函数。很好。但。 。有时候,获取这样的标签数据代价是非常昂贵的(想想如果你的数据是病人的记录,他们需要被一个非常忙的医生标记为健康或疾病)。我们能做得更好吗?是的,这个想法实际上是询问ML工具需要什么样的数据来进行训练,例如,询问在对现有样本进行分类时发现了什么问题,以及为什么会出现这些问题。如果你能以可视化的方式向训练者提出这些问题(关于工具),那么人类就能给机器提供机器真正需要的训练信息,因此,训练变得更快,代价更低。我们在这个方向做了一些非常简单的事情,请参阅最近与Benato和Falcao的论文。但我们的想法是扩展这种交互式可视化技术,使机器(DL工具)基本上可以直接与训练者沟通,这样训练者就可以在训练过程中看到很多问题并及时帮助他们。这样,即使是在标签样本昂贵的领域,整个训练过程也变的切实可行。
你的建议没有问题:我会等待你对你最感兴趣的主题(a、b、c)的反馈意见。在选择时,请考虑:
总的来说,为了帮助您,这些主题大致有以下特征:
a)大型关系数据的可视化
b)高维数据的可见性
c)机器学习的视觉分析
当然,我们也不需要纯粹的a、b或c,我们可以在项目中混合一些主题。所以,在周一,你不仅要告诉我哪一个是(a,b,c),还要反思我上面写的内容,也就是说,你要公开诚实地评估你在(a,b,c)项下的强项/弱项。这样我也可以看到你最适合的地方,所以我可以建议你做最后的选择。