[关闭]
@gaoxiaoyunwei2017 2018-04-22T13:41:03.000000Z 字数 6668 阅读 387

新零售运维保障解决方案

白凡


分享:杨春-阿里巴巴高级工程师
编辑:白凡

讲师介绍:目前就职于阿里巴巴全球运行指挥中心,简称GOC,主要负责运维保障相关工作,服务过电商、通讯、新零售等多元且复杂的业务。

image.png-277.8kB

今天我带来的是“新零售运维保障解决方案”,内容包括三方面,新零售的现状以及它的挑战、运维保障体系以及未来的发展和方向。

image.png-131kB

1. 新零售的现状及运维挑战

大家有没有听过“盒区房”?现在新零售其中一个比较典型的业务就是盒马鲜生。继我们曾经“学区房”的概念之后现在已经出现了“盒区房”的概念,即围绕着盒马鲜生三公里内的配送范围区域被称作“盒区房”。不知道大家有没有去过盒马鲜生,如果没有去过呢,可以去体验一下,感觉非常不错,尤其是里面的海鲜特别新鲜,口感非常好。
那现在像盒马鲜生这样的新零售的模式越来越火,而早在2016年10月,马老师就曾经提出我们零售业的未来是新零售的天下,电子商务这个名词即将过时。为什么马老师会说零售业的未来是新零售?新零售到底又是什么?

image.png-334.5kB

我们先来回顾一下零售业的演进历程,可以看到,在1870年代到1950年代,它属于一个纯线下的贸易的演进,也就是face to face,而到了1990年代互联网的普及催生出电子商务,我们的消费方式也从线下的face to face的方式转变成了线上的第三方担保的远程交易,在这个年代,我们可以买到全国甚至全球的商品,便宜、买得到、买得全成为了这个年代的代名词,而逐渐的,随着人们对生活品质有了更高的追求,除了便宜、买得到、买得全以外,我们开始额外的追求买得好,比如像我买衣服就喜欢到商场里去试了之后,觉得这个牌子的衣服从质量和效果来看都比较合适,后面才会在网上购买,如果是曾经没有买过的牌子退货率相对来说会高很多,所以可以看到,曾经,因为技术的升级推进了我们从线下消费转变到线上消费,而现在纯线上的电商模式已无法满足我们的诉求,消费者已经潜移默化的向社会提出了更优质的用户体验、更低的成本、更好的商品品质的消费诉求,所以我们需要进行再一次的信息革命来满足消费者更高层次的消费追求,那说到底新零售它到底是什么?

image.png-306.4kB

在阿里研究院里,我们总结到,新零售是以消费者体验为中心的数据驱动的泛零售形态,什么意思呢,简单来说,新零售就是一场始终围绕消费者体验和商家成本及效率的技术变革,利用线上电商积攒下来的技术能力,运用到线下场景,催生人货场的重构。我们知道,在零售行业中,人货场是一个永恒的概念,最初,货很稀缺,所以有好的货就行,而后来物质丰富后,好的地段能促进成交,而随着互联网的发展,场地也已经不是问题,我们可以足不出户买到全国甚至全球的商品,而现在除了更好的货,无处不在的场,人的体验变成了零售业的核心,不同的消费者喜欢不同的商品,有不一样的需求,以心为本成为新零售最核心的内容,选对的人、选对的货、在对的场,通过人货场的重构,实现全流程的数字化,进而实现千人千面的个性化推荐,利用大数据深度挖掘消费者的偏好,有一句话叫未来商家可能比我妈还了解我,我想这句话最好的诠释了新零售中以消费者体验为中心的以心为本的思想,并且通过互联网技术将线上和线下结合达到相同的门店面积获得更多的交易来有效促进坪效,让商家也从中获得更低的成本和更高的收益。所以,总结下来,新零售的人货场跟传统零售的人货场不一样的地方在于,我们提倡围绕以心为本,打造无处不在的消费场景和C2B定制的生产模式,那新零售的出现给运维所带来的挑战是什么呢?这与电子商务的运维有何不同?

image.png-174.3kB

前面提到,新零售是一场关于人货场的重构和线上线下的融合,而在这个过程中,人和场的变化对新零售的运维产生着重大的影响,天然的极致体验诉求和无处不在的消费场景,再加上提效的同时引入的新基础设施新技术都在各个方面冲击着我们的运维体系。

在人的方面,更高的消费者期望迫使我们新零售场景下的系统需要有更高的可用性,来回移动的门店员工不再能接受坐在电脑前提交一个内容长得像小故事一样的问题反馈方式。在新零售,线下场景的消费者相较于线上场景的消费者将会有非常大的不同,同样的稳定性问题线下的消费者会比线上消费者期望高很多,比如现在夏天快到了,某天我在家里躺在床上刷到一件穿起来自带仙气儿的连衣裙,正当我满心欢喜的准备下单的时候,系统出故障了,无法下单,大家觉得这个时候我会很急躁非得马上下单吗?不会,因为我在家躺床上悠闲着呢,并且现在下单我也不能马上拿到我心爱的连衣裙,所以现在下单和半小时之后甚至1小时之后下单对我来说并没什么差别,但是同样的事情如果发生在线下那就完全不一样了;同样的,某天心情很好,我穿着仙仙的连衣裙,踩着10厘米的高跟鞋,打算去附近的商场买些东西,如果不幸在这个时候,支付系统挂了,无法结算,告诉我要等半小时,大家猜踩着10厘米高跟鞋的我还会不会微笑着说好的。所以,当新零售在将线上和线下融合的过程中,线下这种特殊的场景也会带来消费者对系统稳定性的高可用的期望值。而门店员工的加入,则会带来对移动运维的强烈诉求。试想打包员正在门店跑来跑去分拣着包裹,系统出现问题后需要输入一长串的文字描述才能反馈问题,我想对于有着分钟级SLA的门店员工来说内心应该是崩溃的,本来以百米冲刺的速度找到消费者购买的商品装到袋子里可能已经耗费了90%的SLA要求,系统出问题后,反馈一个问题却要用更多的时间来创建一个工单,反馈问题的效率竟没有自己打包的效率高。所以可以看到,在新零售业务场景下,对于消费者和门店员工,不仅会对我们系统稳定性有高可用的期望值,移动运维的诉求也非常强烈。

而在场的方面,引入智能硬件进行门店场地的改造来降低成本提升效率的同时,也带来了一个问题,遍布全国的智能硬件,如何进行高效运维,如何快速发现有多少机器人开始罢工,开始不受控制,哪些悬挂链还在高效地分拣着包裹,这些遍布各地的门店再加上纷繁复杂的智能硬件及人员场景,有多少踩着10厘米高跟鞋的妹子因为我们的系统问题而没了好心情?又有多少准备买完菜做完早饭然后送孙子上学的大爷大妈生气地转身跑去了隔壁的卖场?这对各地的门店造成着怎样的影响?有多少家门店在面临着这样的bad case?在线上电商,客服系统天然地为我们记录着用户的声音,而线下门店的场景,无人能知晓所有门店的情况,这时候全局掌控就显得尤为重要。

image.png-490.8kB

所以总结下来,我们这样一个纷繁复杂的人、货、场的重构以及将线上和线下进行结合的过程中,新零售给运维所带来的挑战主要有高可用、移动运维、高效运维、全局掌控这4个方面。

2. 新零售运维保障体系

对于如此纷繁复杂的人货场重构所带来的4大挑战,解决方案如下:
第一,针对高可用上,历史数据分析发现,大部分的故障都源于系统的变更,而大家都知道,现在互联网的系统迭代速度是非常快的,尤其像新零售这种新模式的探索,更是需要更快的迭代速度来快速适配市场需求,而高速的迭代必然引发稳定性的问题,链路又长,出现问题后排查也比较耗时,那么管住变更就很大程度上减少了问题发生的概率。
第二,针对移动运维上,门店员工持续的跑来跑去,文字输入不便是其中非常关键的原因,所以为了解决这个问题,我们将舆情反馈入口嵌入端上实现便捷提交来有效降低提交问题的成本。
第三,远程响应和原因多样化是阻挡智能硬件的高效运维主要的原因,解决这个问题就需要在最初的发现上就做到清晰的区分和精准的投递。
第四,门店众多、跨地区协作难度大是影响全局掌控非常核心的因素,一个应急响应中心的应急协同模式能够有效的协同各方的信息汇总并加工输出,做到高效闭环。

image.png-172.1kB

2.1 一个应急中心掌控全局

刚才讲到,新零售是一场关于人货场的重构,那重构之后,给我们运维的人货场带来怎么样的变化?对于运维上的人货场来说,体现于运维人员在时间和空间上传递着稳定性相关的事件和信息,新零售人货场的重构,对我们运维上所传递的稳定性的信息和事件当前的挑战还不明显,但是人员和场地上就出现了一系列的变化。在电商,人员有客服、开发,场地有客服中心、监控中心,而新零售,在线上电商的基础上与线下融合的同时,应急协同流程中相关的人员角色也增加了门店员工这个角色,同时问题的来源除了客服中心和监控中心外也增加了门店的智能硬件,而这两者的增加就对问题的反馈流程和方式提出了新的挑战。门店员工跑来跑去的移动场景如何低成本反馈问题?遍布各地的门店和智能硬件的情况如何迅速的收口到统一的地方?
于是一个统一的应急响应中心和舆情中心就在这里面起到了至关重要的作用,应急响应中心的核心思想就是从各个渠道、各端上输入汇集问题到统一的地方,然后加工输出为统一的信息和解决方案回流给对应的反馈人,永远保持信息的透明和齐全,而GOC有一个平台来支撑这一个纷繁复杂的信息流转,它涵盖了底层的语音、短信、钉钉、邮件等通讯能力,上层的关系网,不同问题的优先级判断标准。对于阿里来说,庞大的业务体系之间有着千丝万缕的关系,如果没有统一的应急响应中心,出现一个问题后,仅仅是找人就得耗费大量的时间,但是通过前期将业务和干系人的关系数字化之后,应急响应中心接收到问题,就可以自动的迅速汇集出相关的干系人,包括应该找谁处理、关注人有哪些等等,我们只需要check后就可以一键通知所有需要知道相关信息的人来启动不同级别的应急响应流程,所有人在接收到GOC的通知后,便会立即上线处理,并将关键的信息主动输出给GOC的应急响应中心,进而GOC再经过加工汇总后发出,保障所有人的信息透明,同时也保护了处理问题的同学免受各方面反馈人员的打扰,专心修复系统,争取让用户受故障的影响少1秒钟。

image.png-322.4kB

2.2 一个舆情中心汇集用户声音

关于刚才所说的舆情中心,这块平台有两方面核心理念。第一、端上集成可一键提交的反馈入口,第二,后端集成自动按类聚合并快速启动应急的能力以及批量回流处理结果的能力。
具体来说就是,我们提前梳理好功能的可能问题分类预置到门店对应的智能硬件端上供门店员工选择,比如POS机、RF枪等,需要说明一下,这里的问题分类不是粗略的分类就行,而是要能简明扼要的说明发生的问题,比如POS无法结算、POS无法扫描商品等等,这样的好处是什么呢,首先门店的员工时刻在移动并且有SLA的考核,反馈问题的便捷度要求会更高,那么一个文本打字输入描述问题的方式将完全不能满足他们的需求;其次,众多门店员工几乎不知道反馈问题需要附上的诸如硬件编号、报错信息、具体页面、出错时间等关键信息供排查使用,而预置到端上直接反馈呢,系统就可以自动带回一些排查需要的关键信息,无需来回确认,从而提高效率;而在后端上,与应急响应中心相交互,利用前期梳理得格式化的问题分类,天然地将五花八门的问题反馈格式化,轻而易举地按类聚合,并通过预警的方式启动快速应急,同时批量回流处理结果能力,也能让即使影响遍布各地的门店均能迅速获取到准确地解决方案,做到高效闭环。
曾经我们提交一个问题需要掏出手机,进入钉钉,打开对应的模块,选择属于哪个门店、哪个业务,什么时间发生了什么问题,整体描述清楚提交基本一个问题耗时会在至少5min都算快的,新的提交模式上线后,提交问题可以说达到了近乎一键式操作的效果,不用掏出手机,也不用选属于哪个门店哪个业务,就连问题描述都不需要填,直接手指点一点就可以一键提交,而对于后端支持的人员,曾经统计有多少人反馈时,需要打开各种群,一个个数一下,人肉计算,有可能还要翻一下手机的通话记录有多少人给自己打过电话,而新的舆情平台天然地为我们计算着反馈量。

image.png-211.9kB

2.3 智能硬件的精准监控

而说到问题来源,监控也是发现问题的主要手段,并且我们希望能更多的通过监控发现问题,从而做到在用户感知到之前就解决掉,做到用户无感。那么作为新零售的典型特征的智能硬件的监控如何做呢?监控发现的智能硬件的问题又如何流转呢?先看智能硬件所涉及的人货场是怎么样的,人包括门店员工、门店维保、后端开发,场包括门店、后端开发办公楼,而这中间出现的问题呢,就包括一些硬件本身问题、小二操作不规范问题、服务端系统问题,而为了保障用户的极致体验,我们的监控需要能完整表现用户所感知到的异常场景,不管是硬件问题、操作问题、服务端系统问题,均会影响到用户体验,所以不管出现哪种场景,监控都会报警,最初这些报警都是由开发在处理,后来我们发现,大部分的问题均是需要门店维保来处理,于是我们希望通过原因值分层监控来达到不同原因报警给不同的角色来处理,硬件问题和门店员工操作问题均报警给门店人员处理,服务端系统问题报警给后端开发处理,并做到信息互通,所有问题处理在工单平台有迹可循,如此做到精准投递,高效运维,并将问题完整沉淀用于后期不断优化。

image.png-374kB

整个落地上,在前期,需要提前制定好相关的监控标准及研发规约,凡功能上线,必须携带相关监控埋点,日志打印格式统一,严格将逻辑判断不通过、人员操作问题、硬件本身问题、服务端问题等进行明确的区分,并且统一配置包括入口监控、上下游调用健康度、应用本端功能健康度以及系统水位监控等,这样全链路的监控布点再加上不同原因直接分层响应才能解决新零售高敏感度且具有偶发性的特点,也能达到降噪的效果,为高效运维提供最有利的输入。

image.png-159kB

2.4 管住变更,迈近高可用

除此之外,在高可用上。对于消费者来说,应该有三种场景,第一种场景,完全感知不到故障;第二种场景,感知到故障但很快就恢复了;第三种场景,也是最恶劣的场景,不仅感知到系统故障,还很久都没有恢复。基于这三种场景,我们最希望的肯定是第一种场景,所有的开发运维人员都希望系统没有故障。但其实互联网系统的高速迭代,它必然会带来一些稳定性上的问题。我们希望尽最大的努力追求消费者的第二种场景,就是出现了问题快速恢复。这对于用户的感知也算是一种高可用。

image.png-157kB

而历史数据显示,几乎一半以上的故障是因为变更引发,于是我们希望通过变更管控来有效抑制故障发生的概率以及快速定位到是哪个变更导致的,从而快速回滚。但是在进行变更管控的过程中,有三个问题:第一,我们怎么知道这个变更?第二,怎么收口、怎么控?第三,全部都知道了,也收口了,怎么快速定位,快速恢复业务使用?
这里GOC有一个变更管控平台,从类似于新零售人、货、场的角度,前期去进行梳理,把所有变更的系统都进行统一的接入,再进行数字化,跟踪什么人、什么时间、在哪个门店、哪个业务、哪个应用、做了什么操作,包括配置的、硬件的、应用的,全流程所有细节都进行系统上的数字化。这样,出现一个问题就可以快速通过系统算法的能力,去推荐这个故障相关的最有可能导致它的变更是什么,帮助开发和运维人员快速进行判断,做最快速度的回滚,来保障高可用。

3. 最佳实践

以上所讲到的新零售运维保障解决方案,应该算是在盒马鲜生进行了一个最好的实践。我们用了一个月左右的时间完成了运维保障体系的搭建,也完成了跨地区门店的全局掌控、智能硬件精准监控体系搭建以及线下场景移动运维的探索,还有刚才提到的全流程的变更管控等等,成功的克服了新零售先锋盒马鲜生在进行人、货、场重构的过程中所带来的挑战。大家都知道在线下开一家实体门店是非常复杂的,而盒马鲜生却经受住了928五城十店同开的高峰冲击,在随后的双11、双12大促中也是平稳度过。

image.png-243kB

4. 发展及方向

未来,新零售运维保障解决方案将会继续朝着自动化、智能化、无人值守以及基于即时通讯的应急协同几个方面去探索更高效的运维保障体系。
在新零售中,围绕以心为本,我们的业务从各个方面在优化用户的体验,如果说买得好、买得全、买得便捷是我们将线上线下结合催生人货场重构所追求的长远目标,那么,在新零售的运维,我们畅想着即使在大促当天也能够喝着红酒、吃着帝王蟹,悠闲地看着系统自动执行着容灾策略,保障消费者如丝般顺滑的体验,让大家不仅买得好、买得全、买得便捷,还能买得爽!

image.png-623.9kB

5. 阿里巴巴稳定性建设体系

前面所讲的是关于新零售的运维保障解决方案,而新零售只是GOC众多场景中的一个,在GOC,还有很多很多的场景。这些场景组成了阿里巴巴稳定性体系,覆盖了阿里巴巴从新零售、云计算、新金融到大文娱等全线业务。我们也把这个体系落地中的各类实战场景集合到了一本书里。这本书叫《逆流而上,阿里巴巴技术成长之路》,它是GOC联手几十位工程师倾力总结的技术实战经验,我们希望能够把那些年我们踩过的坑都在这样的体系里进行融合,能够帮助我们的业务提前发现风险,达到业务上的高可用。而未来,我们也希望能够将这样一个稳定性建设的体系分享到互联网行业里,供大家进行借鉴和参考。

image.png-362.9kB

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注