[关闭]
@gaoxiaoyunwei2017 2018-01-17T06:36:55.000000Z 字数 8415 阅读 557

京东技术服务智能化实践

白凡


页头
讲师 | 徐奇琛
编辑 | 白凡


讲师介绍:

image.png-304.6kB

徐奇琛,现任京东平台技术服务部总监,开放运维联盟专家委员及高效运维社区核心成员。目前负责领域:运维、质量、技术服务平台开放,曾负责腾讯社交平台、网媒门户、电商平台和易迅网整体运维管理。

大家好!我先自我介绍一下,曾经一直在腾讯差不多五年多的时间,基本上腾讯所有的业务线都待过,之后我就想学更多的东西,所以2014年加入了京东,其实也是一个电商方向,对自己来说也是非常有挑战的事情,就是公司在野蛮生长。

当时在京东整体负责运维、测试和相应的一些内外部开放平台的建设。平时也比较热心,会参加相应的一些社区联盟的活动,做一些知识传播和标准的制定工作。我今天是凌晨到的上海,我记得第一天的会是发布过一个devops行业的标准规范,那个其实是差不多我们十个人吧,基本上每周周末会聚到一起,就是大家一起默默的写一些东西,作为行业的沉淀。那个是第一版,第二版还在写,过一段时间大家会看到一个完整的devops全体系的规范。

我这里放一张生活照,我的寓意是什么?因为我也是两个孩子的爸爸,我很多照片不是想放特别炫酷的照片,我工作上是一丝不苟,但是我是非常崇尚家庭生活的,因为我觉得运维或者技术行业的从业者还是要追求一种平衡吧。

image.png-73.2kB

接下来就开始我的分享,我们京东的部门叫技术服务部,在这个部门里对AI的一些理解,这个理解是从行业到具体的业务线,然后再到我们相应的一些技术服务的从业者,这样的一个转化的落地。

image.png-80.3kB

1. 大家眼中的AI

先来说一下大家眼中的AI。相信这些都是透过大家的理解,就是一千个人可能有一千种AI的理解方式,最近有特别火的车叫特斯拉无人驾驶,我也体验过,说的粗俗一点,特别装逼,但是确实在中国道路上已经能开起来了。

但是这种对于智能硬件和人机交互的,很多学术研究可能理解为:

image.png-312.1kB

从梦想到现实的一个转变可能相对于比较骨感一点,这个标题叫做现实中大家的AI现状是0或1。确实一线的公司竞争非常激烈,他们在市场上已经有非常成熟的产品,但是绝大部分的公司和团队,还处在学习和探索AI的阶段,并且在相应的场景化的选择和相应算法投入上面持续的在学习和投入,可能还没有到1,并且在这个过程中还会维持很长一段时间。

我们团队也是这样,也跟大家一样,也在探索。来看一下对整个行业的AI化的理解,这里会从行业到公司,到相应的技术服务体系的AI化趋势跟大家简单介绍一下。

image.png-73.2kB

2. 行业和技术服务的AI趋势

2.1 行业趋势

这些大家觉得可能都是一些一线的大厂的行业趋势,APPLE、阿里巴巴,微软等等,可以看到整个业界的格局:
1. 组织结构。微软已经从组织结构已经独立出AI的研究院,我们京东也是,在9月份成立了独立的一个垂直的AI研究院,所有人才全部往这个部门里去灌,所以这是一个组织结构的趋势
2. 技术服务的趋势。通用的云服务厂商,大家都会提供一些GPU的分布式的服务,支撑我们整个AI基础的发展
3. 产品化的软硬件。像微软、百度、京东包括阿里都有相应的音箱级产品的问世,现在很多技术服务已经跟语音和图象识别完全结合在一起,发现全是算法和公式了,人才投入特别特别大,这个转变非常大
4. 一些技术比如个性化的推荐。这个都是很早之前的还是这样。

image.png-323.4kB

2.2 京东现状

这里我唯独没有写京东了,因为京东单独列了一页。
京东我大概分了四个场景,现在基本上都是在逐步的落地过程中,AI已经离我们很近了:

这些都是依托于整个公司非常具体的AI平台在全面开花。

image.png-140.3kB

2.3 技术服务场景化

说完了从整个行业到公司,也来说一下我们整个的技术服务体系的AI。腾讯更多是把运维归类在运营部,比如说运营部可能会有垂直的三个部门:安全、运维和数据。所以它是一个比较综合化的技术运维部门,其他公司可能也有这种称呼。

  1. 智能运维。我们现在团队把很多的职能内聚并作相应的融合,包括整个大团队的质量,自动化的东西和运维,所以把它称为技术服务体系。就是把研发后一层的所有东西包装成一个部门来支撑,所以也是一种组织结构的方式。这里通常大家说的运维简单挪列在第一个纬度,现在发展最快的就是根因分析、预测、精准化推送、场景化的故障自愈、无人职守。
  2. 用户体验是庞大的一个模块。因为现在互联网公司都是以用户为中心,以技术为驱动,所以用户的体验跟数据是深度钻研的,包括对于用户反馈的一些分类。我们现在正在用AI来做,包括大概我们有上万的客服人员的语音,也会作相应的语音转译,就是转成文字,再包括用户异常的分析,用户画像。
  3. 技术驱动业务。技术应该驱动业务发展,解决自己痛点的同时挖掘一些业务层面的排错。比如图片排序、鉴黄等等现在也是在全面做AI化,这些都是基于算法来回答的一些问题。然后就是业务端的降本增效的。
  4. 其他技术服务,包括自动化测试,包括之前听过360Case++的平台,包括相应模块自动化已经把所有的case全部做好了。这些都是通过一些算法和一些大数据来决定它最终的控制策略是怎么样的,性能是一个大专题,风控也是一个大专题。

image.png-73.2kB

3. 技术服务AI的本质与前提

3.1 技术服务AI的本质

说完趋势,来看一下我对技术服务AI化本质的归类以及去做AI这些工作的前置条件的总结。就是为什么现在很多团队不去做AI,又有很多团队是做不了AI。我总结了三点:

image.png-112.9kB

  1. 没有核心的痛点或者是需求。就是没有动力促进我改这个东西。
  2. 缺少资源。我有痛点,但我没有资源。这个资源不单单指的是指技术资源,还包括人才。
  3. 没有正确的规划和技术体系结构。这也是很多成体系公司面临的一个问题,就是大家可能会重复的建一些平台,没有人真正设计场景化的东西。

总结出来一个本质就是叫做结合特定化的场景,也是通过海量数据的持续学习和持续优化去解决复杂问题,并且得到更优的决策,并且创造价值。

image.png-204.5kB

3.2 技术服务AI的前提

3.2.1 第一个前提

在前几个月我一直在写相应的devops工信部的一个标准的时候,我一直在往五级的团队模型靠,做AI的前提是什么?什么样的团队可以真正做AI?是第一级、第二级、第三级甚至是第四级?我们这里归类了一下:

  1. 第一级称作野蛮生长的阶段。叫做先活过去再优化。所以我这里用了很多的反驳式的词语,大家可能会非常熟悉,就是性能是有瓶颈的,架构是一个巨石架构,成本都是靠堆砌,根本没有流程,组织结构是无序的,数据监控都是缺失的,甚至没有,安全防御是脆弱的,测试是一种黑核,并且只是单单覆盖路径。
  2. 第二级,边重构边生活。至少把大家约束到相对可控局面,还有初步的能力管理,相应解决局部的性能问题,数据做追溯并且测试方法是逐步逐步的走向一个规范化。
  3. 第三级叫做快速沉淀的过程,是从被动到主动的过渡。架构相对来说是合理的,柔性的,分层的,多重性分布式,相应局部场景是能够做到自动化。工具是能够收敛一些流程,流程太多不是好事。

    第三级是减少流程,并且重视容量和用户。这个容量不单单是称作为运维的负载,更多是类似于整个的性能测试,可容性测试,包括负载压力测定,然后就是变更管理,包括测试体系,数据洞察能力。
    数据洞察能力,最近半年我听过一句最经典的话,就是一个团队如果没有数据洞察能力是没有未来的,就是你对数据是不敏感的,对数据没有那种能够追溯洞察的话后面的都是虚的,特别是领导必须要有这个能力,如果你没有数据洞察能力,你整个团队的能力模型基本上就在三级的,所以三级到四级就是对于数据,对于自动化的提升,这里要相应有海量运营意识,流程自动化,特别重要的就是标准化。

  4. 相信现在业界能做到三级的公司已经非常棒了,说到的四级顶多也就是BAT,叫做精进的稳定期,自动化程度非常高,对于数据管理运营能力是非常突出的,我们把它叫做半智能化,现在也是一线公司往全智能化过渡的一个过程,这里提到了很多词,大家可能都会听到的,包括非常著名的立体化监控的理论,监控的智能收敛,devops的搭建,持续交付,精益思维,数据的统一化运营,还有立体风控,包括测试的自动化。

  5. 第五级就是我们智能化技术服务,也是我们追求的最终目的地。所以大家可以对号入座看到大家自己所处的位置。

首先从第三级来说起,如果没有标准化就没有办法往自动化去做,所以标准化是一个非常综合性的词,不是说写的一些标准,就代表所有的操作,所有的思维意识,所有的架构都是会往一个标准化方向归类。所以大家一个价值观思维定时就是一个标准,标准化之后会从第四级的自动化和数据管理能力发展,要往全自动化过渡,数据管理也是建立在整体的数据收集、数据分类、数据加工、数据提炼。
最终真正往第五级的全智能化发展就是意识和算法,意识就是人员有那种场景化的主动过渡意识,第五级的人已经有这种归类去做AI化发展的能力了,算法其实就是AI的一个核心。其实算法我们也是通过引入很多高端人才,包括我们在美国的研发中心,招的其实全是算法人,我们AI如果发展快,就是靠人才。
真正第五级包括数据,全局的标准化,自动化,流程意识,AI资源以及组织结构。你会发现如果一个风口过来之后,你发现整个全团队最后什么都没有做,就是因为组织结构没有分清楚,哪些人做基础平台,哪些人做算法,哪些人分场景,这个如果没有搞清楚,AI是搭不起来的。所以现在很多公司就把AI单独立出来,所以组织结构是非常重要的。当你的团队至少在能力模型,在第三级和第四级这个阶段要做的好。这是我觉得做AI的第一个前提。

image.png-110.7kB

3.2.2 第二个前提

基础平台
技术驱动和业务场景驱动,是最底层的驱动因素:

前面的三个平台大家能想到什么?就是ADC的基础落地,然后再覆盖一些其他的基础平台,包括消费、调度等。这些统统组成统一的平台,所以整个公司在这个基础平台使用是标准化的,并且所有的算法、框架都是可以重复用的。

组建化系统
这个更偏向于业务层团队,我们会把所有的大数据作相应的采集和预处理,也会有相应的模型管理、通用框架,部署系统。再到上了AI之后,效果监控与ABTEST组件系统,包括上AI首先是能保证业务稳定,其次做对比。

场景规划
我们经常会做AI的场景转化,痛点解决,业界也会通过更多交流学习一线的公司怎么做技术服务体系的AI化的成功案例。所以我们也会快速把这些案例向实地转化,最终形成我们统一的知识库的沉淀。所以全公司都是可以复用所有的成果。这是一个整体的把它叫做机器学习平台的资源。大家都在各自最擅长的领域去聚焦。

image.png-72.9kB

4. 京东技术服务团队的场景化实践

我们也说一下现在团队在做的一些事,业界其实也都在做,包括自愈、告警等等都有。

分享三个方面:

4.1 用户反馈

我们认为非常重要的模块,所以我们对用户反馈渠道是做了一个平台化的包装,现在是把所有京东用户反馈数据统一的,而且全是我们团队在管理,差不多每天都会产生大几万条的用户反馈相应的提交,而且这些都是实时提交的,也实时加工。这个就会形成一个所有的分类,因为用户不一定正确的按照你APP的反馈窗口去选择一些正确的标签,更多你还是要通过内容去提取,去归类。所以原来差不多有一个挺大的团队,可能至少有个七八个人天天对着每天几万条数据加工,这个非常非常痛苦。

没有AI之前先通过运维的自动化程序,分词的算法,先做了一轮优化,先降了60%人力成本的投入,剩下40%实在是通过人不断的去挑那个权重和相应的关键词顺序,不断增加关健词,都已经搞不定了,这时候想到的也只有AI了。

所以这里可以简单看一下我们原来的一个流程:

大家在任何京东渠道做的任何反馈我们都会看的。所以对通用问题第一时间会去解决的,因为用户是中心。这里可以看到结果数据的入库。我们也会通过人工标识出来这些结果,再对我们相应词的顺序权重做一些人工的调整。即便我们60%里面还是会有一些错误率的,可能还是有占比不小的错误率,会误导相应的产品研发。我觉得只是做了一半的事情。

image.png-248.2kB

我们用了机器学习,整体的公司的登月平台,是由美国的算法工程师帮我们在做的,主要是用的KNN和一些相应的分类的算法,算法是比较多的,这个没有列全,更多是分类型和特殊具备的算法,会不断的对数据模型作相应的分层。所以我们逐步减少人员的投入,初步是发了一部分灰度数据,提取了10%左右数据给美国研发中心,这个算法我们也会去参与,大家可以看到它是一个机器学习过程,包括相应的模型跟进,也会有训练的程序在里面。

经历了两个月不到,已经基本上找到方向了。后面可以看一下数据,可以看到通过智能处理过的一些数据,还有一些小部分的人工确认工作,这个已经非常少了。然后继续影响相应算法的因子,整体的介入后的提升。刚刚说的第二阶段可能是智控部门的四个人,基本上七天无休,对40%的数据做人工打标,现在基本上两个人对一下数据就OK了,然后继续更新算法,这是一个前后的介入过程相应的算法流程和效果图。

image.png-452.8kB

这是一个简单的数据的提升率,我们整个的用户反馈是会做不同层级的分类,包括购物车的,或者京东金融的或者京东APP的,或者京东智能的。越往下相对来说越准确,通过之前的分词算法,人工方法很难达到,而且失败率会越来越高。

image.png-140.2kB

这是一个样本的对比,有两千多条的数据,原来的算法是500多条基本上识别不了,现在引入KNN这种方式,可以看到在64%和55%,在整个大盘来看基本上是77.1%的识别率,这样可能就到了三层了,而这个已经是几个月以前的数据了。

现在可能已经达到百分之九十多,所以这个会人工的投入就会比较少了。这是用户体验模块的提升。这是一些简单的团队的总结,包括比如说每天会去把相应的关键词匹配,归类以后再处理,用户反馈时被业务部门打回反馈数据。

image.png-135.1kB

4.2 预测

下面这是第一个案例,这是大家非常熟知的一个案例,智能运维。

image.png-141.8kB

  1. 预测数据,我们经常会有各种的数据做预测,现在会对所有的核心数据做一些相应归类,所以会有定期的,基本上是拿15天的数据作相应的数据预处理。
  2. 预测模型。逐步的到达一个预测模型,这里有相应的周期性的加权的均值算法,然后对一些季节型的大促模型算法,因为大促可能就是十倍以上的增长,所以对于时间和周期或者特定的场景还会做细分。
  3. 比较器,相应的阈值,还有同比,环比,最终输出相应的告警。

image.png-265.7kB

这种图我们很多,这就是一个预测。现在绝大部分的模块已经能够完完整整的预测出来,对于整个大盘数据,比如定单、登录,历史数据都会有单独的算法。特别是一些对于噪音的过滤,动态的阈值,通用的算法结合,最后得到一条比较平滑的趋势,所有的波动都能对上,我们把它叫做基线的预测

我们制定更多的关联,关联到CDN的监控,或者关联到IDC的监控,这个带动了其他告警的生态。我们现在整个告警在非工作时段,发送量每天都低于10条,这个运维是有多幸福,一周才十条。当然这个还是归类在场景下面,肯定你还是会收到其他的告警。我现在给团队要求,所有的告警都必须收敛好推送给我,我还是需要风险意识,每周低于十条了现在。告警发出后确认是故障的90%,十条里面九条确实出问题了,这个就是AI。

联合告警。告警信息收敛,也会通过联合告警。现在都是基于云,基于很好的架构多状性,大家其实现在都能及时做的相应的流量切割等等都能第一时间做到,因为现在局部的自动化都做的特别好,不会有特别大的问题,所以这里的一些告警对团队来说意义并不大。我们是帮网络团队或者CDN团队,能够降低80%-90%的误告率。

image.png-144.2kB

4.3 啄木鸟系统AI化

4.3.1 用户反馈场景

电商场景用户反馈是比较重要的场景,我们也会垂直化业务痛点,现在整个公司的流量,因为互联网红利已经非常少了,只有能够大把砸钱买流量,但是买了流量之后用户落地之后点你的活动,你连加入那个购物车的按纽都找不到,现在基本上活动都是基于配置管理的,都是采销人员自己配的,起码有10%的流量是浪费的,当把这些变现的时候,CMO会有多高兴。

我们通常会用这些办法来解决问题:
image.png-73.2kB

统一所有渠道端做动页面。这里写的可溶性监控,性能监控,HTTPS的素材配置检查等等,我们现在先统一一个平台全部帮你搞定,然后性能是流量+时间,这么多活动,确实也是逐步遇到了一些痛点,所以我们归结有些东西也想把它AI化,通过AI去解决。

image.png-125kB

归类活动页事业部,活动入口图片检查。干过电商的人都知道,没有一个人给你一个ID说01是家电,02是时尚,你只有能够通过AI去发现这些问题。这张图是我们近三个月的数据,就是活动页监控的,一个月发现一万多个活动页,至少保证这个流量是可以继续用的,第一时间事业部的人就会收到告警,每天其实帮助节约20-40小时/天,这个从人员角度来说根本没法发现每天成千上万的活动问题,我们到9月份差不多1.2万,10月差不多2.2万,双十一差不多十万。

image.png-90.7kB

提取特征词。问题活动分类AI试点,根据相应活动的描述,去做分词。逐步的用的大家应该做算法的同时,都比较了解的,就是一个贝叶斯定理为导向。大家可以看到对应到事业部的特征,然后相应的一些训练的样本来做判断,初期也会有一些人有一些问题,后面都基本上非常顺畅。然后也会有一些算法的优缺点,算法的选择也是比较有讲究的。

image.png-79.1kB

4.3.2 图像识别场景

第二个我们重点关注的就是图象识别,就是AI方向也会有一些垂直化的纬度,图象是我们非常想做的一个事,因为云我们上半年已经做好了,对所有评测已经有一个流程了。接下来下半年打算把图象这块做掉,因为我们发现活动的特征主题上面的分词和大家点的电商活动的图片,经常会看到图片上有一个描述,说这是一个双十一的活动,图片上面的词你怎么去识别呢?

image.png-108.3kB

现在通过相应的图象地址去提取,然后输入,图象识别工具,然后是输出做图象特征提取,然后分为图片本身的校对跟活动内容的校对。这里有一个余弦相似度的公式计算两个空间向量之间的距离,这个是聚类算法的实现。下面也是余弦公式的优缺点。

image.png-77kB

image.png-73.4kB

5. 总结和展望

简单的总结和展望。下面这句话大家应该能猜出来是出自于谁,2020年我国的人工智能重点技术和应用与世界同步,产业成为新的增长点。2025年部分技术达到世界领先水平,成为产业升级经济转型的新动力,2030年总体上达到世界领先水平,成为世界主要人工智能中心中心。

image.png-141.9kB

这是国务院新一代人工智能发展规划。为什么我对这段话记忆犹新呢,因为这是我听浙大一个教授分享AI的时候提到的,他还出了一本书,就是所有的AI算法,就是我发现国家一下子风口全部在AI了,这个让我很忧虑。就是拼命的去找公司里面能够复用的AI资源,所以基本上我们能想到的AI都在做。还有一句话就是2020年将近50%的企业会在他们的业务和运维方面采用AIOPS,远远高于现在的10%,现在其实10%肯定没有,现在估计也就是1%-2%最多了,而且都是在试点阶段。所以这是Gartner的趋势报告。你会发现这个风口或者大势已经来了,而且大家已经习惯了,现在政府把它叫做AI+,其实我觉得应该叫+AI了。

image.png-117.7kB

这个也是我个人的总结与展望,就是画像体系我觉得现在基本上都在业务层面在说这个,我觉得整个技术服务运维、测试、包括相应的技术管理,或者devops团队都会有一个非常强的画像体系,它会关联到专门的设备画像体系,相应的资源画像体系,支撑前端的优化,再到精细化运营的纬度,故障最优的决策路径,然后到异常的预测,降本增效和技术驱动也是一些场景,包括现在也会经常说的无人值守,无人交付。现在说的是持续交付,下一个阶段可能就是无人交付了。最终还是去反哺业务吧。

image.png-215.2kB

这张图片是我在8月份在美国考飞机执照的时候拍的,这个图片有三个内容组成,一个是罗盘,第二个是整装待发的飞机在起飞,第三个就是跑道。三个要素说明,罗盘说明我们已经有一个正确的AI方向,整装待发的飞机就是说明我们已经做好准备已经有充足的资源了,最后跑道就是整个AI的大势,我们已经可以往这个方向冲刺了。所以我最后一句话就是顺势而为,整装待发!所以预祝大家各自在这个AI上尽快找到方向,作相应的事件,尽快卷入这个浪潮,持续追求相应的卓越!

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注