[关闭]
@gaoxiaoyunwei2017 2018-12-18T04:01:08.000000Z 字数 4138 阅读 541

国家级私有云运维实践

白凡


大家下午好!我要分享的题目是国家级私有云的实践。分享的内容就是三部分:

TIM截图20181214095359.png-37kB

简单介绍一下自己,我目前在一家新公司,叫新钛云服。工作有19年了,1999年参加工作,马上20年了。在盛大游戏待了八年。2013年就到珠海金山西山区待了三年,到2016年时去北京国家发改委底下挂号的公司做私有云,真的是国家级的项目,像国家发改委、国家卫计委、国家海事局等。然后写了一本书叫《深度实践KVM》是2015年5月份出版的。其实是4个人合写的一本书,我是第一作者,还有出版了《运维前线》一共11个作者写十个文章。

也翻译了几本书叫《云原生基础架构》这本书在校对和印刷,最终能看到还要三四个月吧,还有《Ceph Cool Book》,还有《Open Day Light》。业余时间搞了一个社区叫云技术社区,还有一个订阅号叫云技术实践。目前也将近十万个粉丝吧,这是个人的介绍。

TIM截图20181214095435.png-159.5kB

1. 云建设目标

然后看一下我们为什么要建设云?结合一些个人的思考,也许不对,拿出来跟大家探讨吧,云建设的火箭模型,我们要实现云原生,它有什么特点呢?弹性、持续发布、多租户、与基础架构无关、无状态、充分冗余、自动化、模块化、微服务,因为你要把业务拆微服务实现云原生。要做云原生要实现基础架构云原生,比如说我们要有虚拟机,包括我们对物理机管理、容器的管理要实现APP化,方便上层调用。

TIM截图20181214095515.png-88.3kB

当然这是很好的目标,怎么实现云原生呢?对于创业公司来说我们实现基于云的无服务器计算,这是我们一步可以实现的,好处就是学习成本低,不好的地方就是要使用公有云,要持续产生成本,每个厂商的接口不一样,一旦基于这个厂商建设起来很快就会被绑定。当然使用Source也是一种趋势,这是2018年的报告,所以第二种方式我们就使用公有云的容器,公有云的容器相对也比较成熟,它会产生费用,而且也很容易产生绑定。

容器现在也有通用的接口。当然还自建一个私有云,再构建云原生的环境,这个缺点是什么?你要从构建云的基础环境开始,周期非常长,对自己要求也非常高。如果我们要做云原生怎么办?我们要重构这个业务。当然还提到双模,旧的不管,新的方面来建设云原生。国内还有一个联盟叫双态IT联盟,基本上类似于这样的概念,这是面对传统行业多一点。现在云原生现状怎么样呢?真正实现云原生的企业并不多,就是头部的企业像BAT这类的,国外的是像谷歌、Facebook做一些。

TIM截图20181214095612.png-142kB

大部分组织或者有些组织实现了云化,云化很简单,还是云主机,离真正的云原生差距还是很大,还有很多的组织只能叫虚拟化,云可能都谈不上。原因是什么?第一个云原生要重构业务,觉得不划算,没这方面动力去做这个改变。还有就是人才方面的制约,这方面的人要招、培训都有过程,管理层决心也非常重要,现在不管实现云原生还是DevOps的决心非常重要,中间会碰到任何问题,没有管理层的支持很难推进下去。竞争对手也很难搞,需有竞争压力不难推行,所以目前这个现状还要维持很长时间。

TIM截图20181214095817.png-93.1kB

2. 最近几个云技术发展趋势

裸金属云也是喊了很长时间了,这一块有数据,中国移动研究院的的发出的腾讯推出的“黑石”物理服务器,还有Oracle、IBM、华为、阿里云、微软。这一块有一个趋势,裸金属云这一块发展还是比较快的,到2020年有90亿美金的市场份额。

TIM截图20181214095933.png-157kB

裸金属云有什么特点?它的计算能力比较强,其实也就是物理机。可以做到物理层面的隔离。快速交付,实际上把物理机API化了。还有一个好处是什么?可以和云产品打透,比如说你和你的对象存储、VPC都打通和整个云融合在一起。

TIM截图20181214100036.png-75.4kB

完全要使用云主机一样用还是有些困难,比如说云主机有远程的NAC都有远程的通面可以看到,但是目前这些云提供的裸金属服务还有没有远程桌面的服务,技术上还是有好多需要克服的地方。然后哪些场景可以用?一个是性能要求比较高的,比如说大型在线游戏、基因测序,这种对计算要求比较高的业务,还有一些传统行业,核心数据库,像SAP、HANA这些。这对传统行业是比较好的,SAP要云化放在云主机上不太现实,现在提供一种方式直接可以把它搬到物理机上,并且放在云上,这是对它非常有吸引力的解决方案,还有大数据的分析,它的压力比较高,对压力、网络要求比较高。

TIM截图20181214100107.png-74kB

还有有人用自己搭建私有云放在容器云上,这对自己来说是比较灵活一点。另外就是超融合,超融合喊了好多年了,目前国内很多厂商都在做超融合,看起来也有发展趋势,并且发展比较快。这是中国超融合比较老的市场数据,每年有20%的增长。超融合就是合资开起来立马就用,缺点是什么?比较贵,不适合大型场景,中小企业比较适合企业,规模比较大的公司一方面成本比较高,一方面要定制化非常麻烦,它有没有接口?能不能跟现有的各种系统打通?跟你的流程、认证打通?再一个可能对存储方面要求比较高,但是它的一体化要扩容什么的,必须要按比例扩容。

TIM截图20181214100511.png-126.6kB

云方面就是SDA,就是把控制层面和转发层面接入。近几年有一种声音,就是智能化的网络,我理解SDA+AI的解决方案,这个是思科网站的图,学习各种场景。Ganter它有四个特征:

如果真的基于智能化的网络做的比较好,以后可能就是通过语音或者图拖拽两下就可以成功了。先现在厂商各种产品都能看到智能。这个也是后面网络发展的方向。

TIM截图20181214100901.png-162.9kB

然后就是多云和混合云,混合云也喊了好几年了,多云就是你使用多个云,像国内的共有云、阿里云、腾讯云。混合云就同时使用多有云和私有云,还有像异构,既使用多型机也使用物理机,这也是Source的数据有51%使用云,21企业采用共有云。这一块的成本分析都希望在一个管理平台上完成这些任务。

TIM截图20181214100558.png-116.3kB

这边也有私有云的数据,其实私有云像OpenStack国内喊的比较厉害,但是国内使用的多的还是vSphere,昨天有一篇文章叫OpenStack的八年之痒,这是非常有深度的文章,这个作者他的订阅号只有一两百人,阅读量一万多了。

TIM截图20181214100813.png-102.1kB

接下来是云网融合,把自己的私有云和共有云打通,这样首先可以保证网络的稳定和数据安全。所以云网融合也是比较热的一方面。

TIM截图20181214101102.png-120.7kB

这是对IT团队也提到了比较高的要求。IT团队要转化在云上面,如何把云用好?如何专注云、控制云的成本?

TIM截图20181214101305.png-156.7kB

优化云。在云时代运维的价值是什么?用云是必须的,用云的过程中要持续优化成本,云生态是持续的追求目标。

TIM截图20181214101508.png-110.6kB

最开始公司的API让用IBS,很大的原因用IBS就是没事干了。现在看起来可以持续的优化,然后尽量做云原生相关的事情。

3.私有云运维方面的经验

在规模比较大的私有云里,你还是比较讲究用传统的解决方案,像PDC、ITIL。大型企业里ITIL就是深入到IT内部的东西,你必须要用ITIL语言进行沟通,它也是这样的机制,对ITIL方面就比较重视。

TIM截图20181214102031.png-173.7kB

我简单用一个项目的实施周期给大家介绍一下如何运行的。首先就是大型项目里合规是红线,必须要过三级审核,我们也有合规方面的专家。然后要有大量的基于ITIL的制度、流程等方面的储备。

TIM截图20181214102114.png-36.8kB

再简单介绍一下人员组织的变化,原来分为四块主要是做系统方面的部署和实施,包括系统之上的云平台实施,网络就是专门做网络方面的实施。支持呢?就像ITIL的工作台有人24小时值班,还有做工单系统、工单流转、任务追踪的支持,还有现场做基于服务器上架。组织方面也做了变革,没有现场做也没有系统做,就是把些必要相对来说架构级别的人分成架构组,它主要做架构方面的设计还有方案的验证,和疑难杂症的处理。实施组要有能搭建云的能力,包括机房现场上架不线、服务器OS运维、网络设备之安全设备、分布式存储、云平台,然后内部还有考核,考核完了才具备实施组的资格。

TIM截图20181214102203.png-64.9kB

架构组就要有方案的能力和云平台的搭建能力,还要完整的云运维能力,还要脚本以及编程能力。每碰到一个新项目来的时候我们叫做虚拟项目组,这个项目会有唯一的运维内部的owner,从项目做到项目的挣钱,他是唯一的责任人,也包括跟客户和公司技术人员对接。这个项目出了问题这个owner必须要负责,他觉得容量不够了就要找你申请资源,客户有需求也他会跟客户约谈,他知道这是责任是他的,他也跑不掉。

TIM截图20181214102234.png-37.5kB

这就是我们人员组织方面的经验。然后就进入项目立项阶段,我们会制定一个Owner然后制定实施方案主要就是WBS的形式,WBS就是三个字母的缩写,Work、Breakdown、Structure,它是按照一定的结构模式去组织的。

TIM截图20181214102316.png-64.4kB

比如说包饺子有很多人包过,没包过也看到过,可以分解为准备饺子馅、饺子皮等。这一页我就不详细介绍了。

TIM截图20181214102416.png-79.1kB

TIM截图20181214102438.png-89.4kB

这一块插播一下七大人生工具,SWOT分析PDCA循环、6W2H法、SMART原则、时间管理、WBS、八二原则,就比如说WBS我开始做之前这个东西看起来也非常有道理,但是做的时候发现有好多细节上的东西,真正实践的时候,尤其做项目的时候怎么样分解,是按照时间线分解还是按照任务分解呢?关于各种方法有好多书大家有兴趣也可以研究一下。

TIM截图20181214102457.png-90.2kB

做项目实施的时候反而简单了,按照自己的WBS做,做了哪些?哪些没做?为什么有偏差?

TIM截图20181214102533.png-35kB

然后进入项目运维阶段。首先够是ITIL方面的流程,然后我们使用了大量的开源工具。

监控方面我们用的OTRS,OTRS是非常重的工具,但是功能比较多一点,大家可以看一下。有的客户还需要大屏,当然如果要求比较高的话也会定制化开发大屏,国内有好多公司专门做大屏也能生存,最后就是专家,要有对疑难杂症比较熟悉的专家。

TIM截图20181214102552.png-38.7kB

总结一下吧,有个故事,将军射箭围了一群人,每次射箭都能射到红点上,周围人都叫好,旁有的人叫“无他叫首尔”,将军很生气了,其实做运维也是这样的,不容有任何的披露和偏差。然后也要依靠经验、平台、流程和Checklist和核查机制,长期不断地尝试、修整、积累。这不光是云运维。我分享就这么多,谢谢大家。

TIM截图20181214102637.png-119.5kB

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注