[关闭]
@xingyunyun 2017-03-06T16:55:52.000000Z 字数 4679 阅读 500

QCon北京2017快速进化的容器生态专题前瞻


容器以其构建、分发和部署的简易性成为 IT 基础架构中的关键技术。过去几年间,以 Docker 为核心的容器生态在持续进化,涌现出了诸于 Docker、k8s、Apache Mesos、Swarm 等优秀的开源项目和解决方案。然而,在大规模的实践中工程师们又发现,在容器编排、集群管理、调度、隔离性、运维监控等方面仍然存在着困难和挑战。

QCon 北京 2017 设置了《快速进化的容器生态》专题,邀请了来自国内外一流公司的容器技术专家介绍其使用容器的典型场景,同时针对上述困难,多方面分析评估容器生态与实际业务结合时所面临的风险和挑战,分享其解决方案和实践经验,为正在或准备通过容器生态优化其 IT 基础架构的公司提供技术参考,使其更好地利用容器生态。感谢专题出品人搜狗架构师刘建的精心策划。

刘建,搜狗架构师,北航计算机系博士,负责搜狗商业平台的基础研发和平台架构,涉及广告计费、报文等核心业务服务,致力于解决分布式、高并发、大数据量、强一致性、移动等带来的各种技术难题及挑战,构建和持续优化商业平台基础架构、基础服务,保证高可靠、高性能、高可扩展性、低成本的快速支撑新业务。

个人技术方向涉及数据存储、分布式计算、服务化、安全等,对 Java 技术、分布式计算、面向服务体系结构、中间件通讯框架、认证和授权、消息中间件、分布式数据库、容器等后端技术方向都有较深刻的理解和实践经验,有多年大规模复杂系统架构实践经验。

本专题都策划了哪些话题,又为什么选择了它们?让我们一起先睹为快吧!

话题 1.《Mesos,数据中心操作系统的核心》

演讲嘉宾:俞捷 Mesosphere 架构师,Apache Mesos 贡献者、PMC 成员

Apache Mesos 作为数据中心操作系统(DC/OS)和分布式系统的核心,已经被广泛地应用和部署在超大规模的生产环境中。作为最先进的容器解决方案之一,Mesos 极大地简化了容器的分发、调度和执行。除容器之外,绝大部分流行的大数据分布式框架也都能够在 Mesos 上部署。这对于整合企业内部容器和大数据平台从而提高数据中心的利用率产生了至关重要的影响。

本话题将首先介绍 Mesos 核心的资源管理接口,并结合实例来阐述其简洁但强大的功能。它不但能够轻松地管理无状态的容器,也可以用来管理有状态的数据服务。同时,Mesos 的容器管理功能也相当强大,它不但能够无缝对接 Docker,也拥有自己的容器引擎,能够支持大部分流行的容器镜像标准,并稳定的运行它们。

出品人有话说:

面向分布式应用有资源和应用两个视图,资源视图侧重于底层系统资源的管理,对分布式集群环境中的 CPU 、内存、存储和其他资源进行抽象。Mesos 是其中优秀的框架之一,并已经得到了广泛应用。近些年来,Mesos 也一直持续优化和改进,支持越来越多的特性,特别是在存储和网络方面对 Docker 进行了深度支持。

来自 Mesosphere 公司的架构师俞捷将介绍 Mesos 及其新特性,包括资源管理、容器引擎、存储、网络以及开发者工具等。

话题 2.《百度 Matrix 集群管理系统》

演讲嘉宾:吕斯哲 百度高级架构师

Matrix 是百度私有云的核心系统组件,负责为百度提供基于 Container 的虚拟化解决方案,曾获百度最高奖。目前,Matrix 系统已大规模推开,托管了百度几乎所有核心业务、接管了所有机房,成为核心基础设施。

本话题将从宏观层面介绍百度的 Matrix 系统,介绍系统的基本结构、在支持在离线混布方面所涉及的容器技术,以及在超大规模、业务形态多样化的大型机构中系统性的推进容器虚拟化战略的实施经验。

主要内容:
Matrix 系统简介;
Matrix 宏观架构介绍;
容器技术与在离线混布;
大规模、多样化场景下的推进经验;
Matrix 与社区相似系统对比。

出品人有话说:

在容器编排和集群管理领域,除了 Mesos/Marathon , Kubernetes 和 Swarm 三大主流方案之外,部分有实力的大公司选择了自研方案,以便更好地适用于公司业务需求,提供更多的灵活性。百度自从 2012 年以来,就基于 cgroups 和 namespace 进行资源隔离,并研发了超大规模资源管理平台 Matrix ,近几年,此管理平台持续进化,并原生支持 Docker Image 的部署,为百度提供基于 Container 的虚拟化解决方案。

百度高级架构师吕斯哲将分享 Matrix 的系统架构,以及百度基于 Matrix 的在离线混布及大规模多样性场景下的实践经验,此外,还将与几大主流方案进行详细对比。

话题 3.《容器编排方案 Swarm 的演进》

演讲嘉宾:陈萌辉 阿里云高级专家

Swarm 是 Docker 官方推出的容器编排方案,以其简单的架构、友好且兼容 Docker 的 API、丰富的资源约束语法,深受开发者的喜爱,成为容器编排领域三分天下之一。而 Docker 1.12 推出的 Swarm mode,更进一步集成了 KV 存储、服务 API、路由等功能,把上述优点推向了极致。

本话题将介绍 Swarm 的演进历史,并仔细分析 Swarm mode 的新功能。

出品人有话说:

在容器编排和容器集群管理领域,Swarm 是后来者。不过 Swarm 根正苗红,Docker 官方已将 Swarm Mode 集成到 Docker Engine 1.12 版本,成为 Docker 的容器集群管理方案。它也得到了阿里云的支持,在最近一年里迅速发展,逐步成熟,成为容器编排和集群管理领域中不可忽视的一股力量。Swarm 拥有一系列的特性,包括集成在 Docker 引擎中的集群管理、声明式服务模型、扩缩容、期望状态协调、多主机网络、服务发现、负载均衡、滚动更新等。

阿里云高级专家陈萌辉是 Swarm 的贡献者之一,我们有幸邀请他来 QCon 分享 Swarm 的演化历史,Swarm 的新特性及其在阿里云生产环境中的实践经验。

话题 4.《腾讯 GaiaStack 容器技术深度探索》

演讲嘉宾:洪志国 腾讯高级工程师

同一个主机上容器间的资源抢占和干扰,是各种资源敏感型业务迁移到容器云的主要顾虑所在。可靠的弹性资源隔离,是实现多种业务混合部署,提高集群资源利用率的必要条件。

目前,CPU、内存和网络出带宽等资源已经有比较好的弹性隔离方案,也得到了各容器平台的充分利用。但是网络入带宽,磁盘 I/O 还没有满足需求的弹性隔离方案。GaiaStack 团队在这些方向进行了深入的探索,并自主开发出可用的方案。本话题将介绍问题背景、解决方案及相关测试报告。

主要内容:
腾讯 GaiaStack 项目介绍;
网络入带宽的弹性隔离;
磁盘 I/O 的弹性隔离。

出品人有话说:

Docker 的一个重要作用是资源隔离。Docker 目前对 CPU 和内存进行了隔离,不过一般情况下用户期望在资源空闲时能够最大化地利用空闲资源,以提高资源总体利用率,提升应用整体性能。此问题即是资源的弹性使用,它有许多应用场景,比如,海量数据的传输和存储时尽可能地利用网络带宽和磁盘 I/O。

腾讯早在 2014 年就构建了支持 Docker 的资源调度平台 Gaia,近期他们在资源弹性使用方面做了许多研发工作,本专题邀请了腾讯数据平台部高级工程师洪志国来分享腾讯在网络和 I/O 两个方向的资源隔离和弹性使用方面的实践经验,会对提升资源使用率的同时保持其隔离性的场景有一定的启发。

话题 5.《基于 Mesos 搭建 PaaS 平台你可能需要修的路》

演讲嘉宾:杨成伟 爱奇艺助理研究员

容器技术及 Docker 的崛起,极大地改变了企业软件的开发、构建和交付模式;将云计算从 IaaS 推进到 PaaS,进一步提高了企业软件的开发效率,交付速度,降低了运维成本。

QAE(iQIYI App Engine)是爱奇艺云平台部为内部开发者打造的一个私有 PaaS 平台,旨在为公司内部开发者提供一条龙的开发、部署和运维服务。QAE 支持用户全自助(资源配额需要预先申请)部署自己的应用,并且提供完善的服务,包括失败自动恢复、水平扩展、健康检查、服务发现及负载均衡、监控及报警、灰度发布及 A/B 测试、日志、基于 Web 的容器控制台以及无流量丢失的平滑升级。

在实现上,QAE 基于 Mesos、Marathon 和 Docker 等开源技术,在开发过程中,我们也发现了一些开源软件本身并不提供或者不能满足我们需求的地方,本话题将和大家分享我们在实践过程中真正解决的问题。

主要内容:
背景及 QAE 介绍;
怎样为 Marathon 增加卷注入的功能,优雅地解决 PaaS 平台应用日志的采集问题;
怎样实现用户可控的灰度发布及 A/B 测试功能;
怎样解决 Marathon 服务延迟发布的架构问题;
怎样改进 Marathon 事件总线来实现从微观上也无流量丢失的平滑升级和自动扩展。

出品人有话说:

基于 Mesos 的 Marathon 是目前使用最为广泛的容器集群管理方案之一。它拥有高可用、服务发现、负载均衡、健康检查、JSON/Rest API、管理 UI 等诸多优秀特性。然而,即使对于专业的人员来说,它还是过于复杂,很难直接适用于大规模的互联网业务,特别是需要提供额外基础服务的场景(例如,日志收集、灰度发布等),因此,稍具规模的互联网公司都会构建自己相应的平台,以提升效率,降低成本,控制风险。

爱奇艺早在 2014 年就开始大规模运维 Docker ,也逐步构建了自己的私有云平台 QAE ,本专题邀请到了爱奇艺助理研究员杨成伟分享基于 Mesos、Marathon 和 Docker 构建的爱奇艺私有云平台 QAE 中所遇到的问题、相应的解决方案和实践经验。

话题 6.《搜狗商业云平台实践与思考》

演讲嘉宾:王宇 搜狗资深软件工程师

随着搜狗业务规模的快速发展,如何有效地控制硬件成本,如何在版本快速迭代的情况下提升开发、测试、运维的效率,是搜狗面临的实际问题,而容器技术的出现,提供了新的思路。

搜狗以容器技术为基础,基于 Docker 和 Kubernetes 构建了一站式私有云管理平台——搜狗商业云平台,此平台涵盖服务管理、弹性伸缩、灰度发布、自动运维、持续集成等功能,以提升效率,降低成本。

本话题将介绍搜狗商业云平台在服务管理、自动构建、服务注册授权和日志监控的选型思考及架构实践,同时将分享把传统服务平滑迁移至私有云平台过程中的一些心得体会,对企业私有云的搭建、管理和运维有一定的借鉴意义。

主要内容:
商业云平台中的服务管理;
多版本环境下的 CI & CD;
服务的自动注册和授权;
基于组的灰度发布和弹性伸缩;
监控和日志解决方案等。

出品人有话说:

Kubernetes 是 Google 多年来大规模容器管理技术的开源版本,是 Google 多年产线实践经验的最佳体现。它提供了应用部署、维护、扩展机制等功能,使得能方便地管理跨机器运行容器化的应用。不过,同 Mesos/Marathon 一样,它也很难直接适用于大规模的互联网业务,因此基于 Kubernetes 构建满足内部业务需求的平台成为必然的选择。

搜狗商业平台已运行大规模在线服务且必须保证其高可用性,为了保障这些服务的稳定无缝的进行容器化迁移,此私有云平台支持容器应用和其他应用共存,从而更好地降低了迁移风险。此外,此云平台还有很多其他特性,比如,通过统一的配置管理和服务管理使得同一份代码能够同时适用于开发、测试和线上等多个环境;在扩缩容时自动对访问权限(比如数据库、服务注册中心等)进行授权和取消授权,从而保障安全性;在灰度发布中支持对一组相关联服务统一的进行流量百分比控制等。搜狗资深软件工程师王宇将对此商业云平台进行深度解读,欢迎大家一起探讨。

更多精彩,尽在 QCon 北京 2017 现场,8 折期最后一周,预购从速!

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注