@nataliecai1988 2017-08-11T06:14:31.000000Z 字数 684 阅读 1283

百度Palo开源项目负责人采访提纲

大数据 采访

感谢您接受采访，本次采访的目的是了解更多关于百度Palo开源项目的信息，给关注Palo的技术人提供一个更全面的角度来看Palo，采访主题主要围绕Palo展开。

附件Word文档是采访提纲。因为目前这个项目在技术圈子里引起了很多关注，我们希望能够尽快将更多信息提供给读者，如果您时间允许的话希望能在周日前回复。对于里面的问题，如果觉得不好回答的可以跟我说，我们可以考虑改一下问题。采访文章整理完成会给您确认后再发布。

能否简单介绍一下Palo以及百度开发Palo的初衷？
Palo主要应用场景有哪些？能否举个实际案例？
目前网上还找不到Palo的benchmark数据，很多人对此都很好奇，是否可以分享一下这方面的测试数据？
如今业界已经有很多比较成熟的大数据分析和搜索引擎，如Druid、Kylin、Impala等，还有新兴的以高性能著称的Clickhouse数据库（性能超过了市面上大部分的列式存储数据库），另外，同样采用MPP架构的实时查询系统还有EMC Greenplum、HP Vertica和Google Dremel，Palo与这些已有的数据库引擎或系统有何不同？Palo的优势在哪里？从性能方面来说，Palo与它们有什么差异？是否进行过对比测试？
Palo是百度云的一款商用产品，如今决定开源的原因是什么？
向Palo导入格式化数据是否一定要借助百度的BOS？
Palo的扩展性如何？
现在网上能找到的Palo的架构设计文档比较少，能否具体介绍一下Palo的架构设计？
目前Palo还存在哪些缺陷？未来百度对于Palo还有什么改进计划？