[关闭]
@nataliecai1988 2017-09-12T05:21:38.000000Z 字数 1440 阅读 490

2017上海QCon采访 黄明 采访提纲

采访


采访目的:为QCon大会预热,给人工智能领域和大数据领域的技术人提供一个更全面的角度看大数据平台和机器学习平台,也让大家了解更多关于腾讯Angel平台的最新信息。

采访主题:由于之前已经有了不少关于Angel平台的采访报道和技术文章,具体的技术细节这次不多涉及,这次的采访主题会围绕人工智能时代大数据平台的演进、机器学习平台的搭建和腾讯Angel平台共同展开。

采访大纲
面向读者:AI领域/机器学习开发者、对机器学习平台和Angel平台感兴趣的人

回答问题:
1、未来机器学习平台会变成must to have吗?
2、一个优秀的机器学习平台应该是什么样的?
3、该选择开源的机器学习平台还是自己搭建?
4、如果自己搭建机器学习平台应该怎么做?目前还有哪些问题和难点?
5、开源以来Angel平台的新变化

问题

  1. 我们都知道Spark是为通用数据处理而设计的,并非专用于机器学习任务;随着机器学习、特别是深度学习在多个领域取得的革命性成功,不少企业都推出了专用的机器学习平台。您是Spark的早期研究者和布道者,并且一直从事分布式计算和机器学习领域的开发工作,对于大数据平台的这一转变您一定深有感触,能否结合您的工作经历,为我们介绍一下通用大数据平台到专用机器学习平台的演进历程?是什么推动了这一转变?您认为将来大数据中心的大多数任务会变成机器学习任务吗?

  2. 早期的数据处理大多都是离线批计算,实时处理只是对离线批计算的一个补充,但是现在越来越多的应用场景对数据处理有了高时效性的要求。腾讯大数据平台也历经了离线计算、实时计算、机器学习三个阶段的发展。如今对企业来说,对实时流计算的需求是否已经从 nice to have 变成must to have了呢?未来机器学习平台是否也会变成must to have?

  3. 未来批处理计算和实时流式计算在企业构建AI平台的基础架构中将分别起到什么作用(可以结合Angel来谈)?随着人工智能技术的发展,对实时流式计算的需求又会发生哪些变化?

  4. 计算是机器学习平台的基础,但不是全部,一个优秀的机器学习平台需要具备哪些特性?如何设计和搭建这样一个平台,能否与我们分享一下您的经验?

  5. Google 的王咏刚老师在《为什么 AI 工程师要懂一点架构》提到,研究不能只懂算法,算法实现不等于问题解决,问题解决不等于现场问题解决,架构知识是工程师进行高效团队协作的共同语言。能不能谈谈您对架构能力的看法?

  6. 使用外部开源或商用的机器学习平台,还是搭建自己的机器学习平台,应该如何选择?

  7. 通过您之前给大数据杂谈的投稿,大家对Angel平台开源前所做的一系列重构和升级已经有所了解,开源以来想必又有了不少新变化,能否介绍一下近三个月你们对Angel平台又做了哪些优化?文章中提到“后续会有更多基于PS-Service的框架接入Angel生态圈,包括深度学习”,现在框架接入这一块有没有新的进展?它能够支持在线学习了吗?

  8. 开源这段时间,Angel平台的推广情况如何?有没有什么印象特别深刻的问题反馈?问题是如何解决的?

  9. 开源三个月后再看Angel,与一众机器学习平台相比(比如Spark、Pettum、GraphLab、TensorFlow还有第四范式的先知平台),Angel的优势是什么?Angel的什么特性最能吸引机器学习开发者?

  10. 您认为目前机器学习平台还存在哪些问题和难点?未来改进的重点是什么?

  11. 未来腾讯对基于机器学习平台Angel和深度学习平台DI-X的AI生态布局还有哪些规划?

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注