[关闭]
@Lucien 2016-05-23T12:06:58.000000Z 字数 4157 阅读 662

360王占一:参加Black Hat大会给我的启发很多


对网络的入口处对应用程序识别是非常重要的,无论是网络安全产品,还是专业的流量分析引擎,应用流量的准确识别不但能洞悉整个网络的运行情况,还能针对具体需求做用户行为的准确管控,在一定程度上既可保证业务流的高效运行,也可预防由于内网中毒引起的断网事件。

基于此,我们采访了北京邮电大学信号与信息处理专业博士、360企业安全部研究员王占一,就如何利用深度学习、机器学习等方法来对网站流量进行监控识别做深入的解答。王占一博士目前主要从事数据挖掘、深度学习、异常检测、复杂网络分析方向的研究,并在2015年Black Hat大会上做了题为《深度学习在流量识别中的应用》的主题演讲。

此处输入图片的描述

InfoQ:王博士,按照常规,请您先介绍一下您自己以及您现在从事的工作内容吧?

王占一:现在在天眼团队AH团队,从事算法研究,目前主要负责机器学习和数据挖掘等相关工作。

InfoQ:您在去年的Black Hat大会上分享的“深度学习在流量识别中的应用”话题展示了那些研究成果?

王占一:结合来讲,当时主要分享了两部分的内容。

第一部分就是对协议进行识别,每天会对50-80种协议通过网络流量来识别,通过采用360内部流量数据来做识别实验。对于协议的识别还是比较简单的,识别的方法就是通过多层全链接渗透的神经网络,识别出来的结果总体来说准确率超过99%,平均准确率在97.9%,算是比较高的了。

对于应用程序的流量识别,其难度要比对协议的识别更大,而且识别的速度也相对慢一些,因为涉及到更细致的版本号,而且应用程序的数据规模和类别也比协议要大得多,每天大概有将近1000种。所以使用的方法也更复杂——卷积神经网络(Convolutional Neural Network,CNN),识别的准确率在96%。

目前360天眼团队主要还是用机器学习、深度学习和数据挖掘等手段,研究出相关的算法模型来解决不同场景下的网络安全和企业安全中遇到的问题。利用这些手段对流量进行识别的目的有两方面。一方面能减轻人工的工作量,另一方面,如果识别率很准的算法模型是可以形成一个模块加入到产品里。

InfoQ:应用流量识别具体能解决哪些实际的问题呢?

王占一:对于加密的协议,刚开始做识别的时候并没有区分协议是否加密了,因为机器会根据特征去学习,只要把数据输入进去,不关注加密与否。后来根据比特彗星(BitComet)下载协议的结果来看,准确率也在99%,只要协议不是完全加密的,都可以识别出来。至于加密的协议有多少,还是要看情况,像迅雷BT、HTTPS这些协议以后会越来越多。

InfoQ:深度学习技术在安全领域上遇到过哪些障碍?

王占一:这个可以从“输入”和“输出”两方面来说。

输入方面遇到的障碍就是拿什么作为”输入源“。现如今很多人都在谈大数据,以为把庞大的数据输入进模型就可以了,其实不是这么简单。和传统的”“人眼所见即输入”的图像输入不同,图像输入只需要把图像的大小、像素、调参准备好就能进行识别。但是在安全领域对流量进行识别的话,因为数据的样本、网络日志和表现形式都是不一样的,所涉及到的问题也比较多,需要耗费一半的精力在解决这部分问题上。拿什么当作输入,拿什么当作特征,这就需要做数据的关联,需要一个统计分析的过程。流量的字节流可以看作是文本或者二维图像,所以也是可以通过深度学习和机器学习的算法来解决对流量的监测,这也是当时的一个策略。现在是根据情况,调整卷积盒的大小,将一维和二维融合起来。

InfoQ:360天眼和360QVM之间有什么关联吗?

王占一: 360QVM是杀毒引擎的一部分,属于不同的部门,它也用到了机器学习技术,和360天眼的底层算法还是有一些相似之处的。

其实算法这一部分在刚开始的时候发展很快,到了一定阶段就会出现瓶颈期,过一段时间会有点起步,但是目前应该是处于相对平稳阶段,没有太大的突破。360QVM在特征和模型训练流程上比较强,重点在于查杀识别木马病毒,而360天眼更多的是感知类似于数据内容、网络攻击形式的企业安全层面的威胁,可以说两者在应用场景上是不一样。

InfoQ:如何对采用HTTP 2.0网络加密协议的网站进行流量识别并进行数据解密?

王占一:采用HTTP 2.0网络加密协议的网站其实是在一些文件代码上面加了一层迷惑代码的“壳”,现在还没有具体的办法将这样的问题解决,通过传统的安全方法把这个协议或者样本的“壳”解开之后,再利用机器学习算法才能更好的解密。至于难度,还是挺大的。

InfoQ:对于使用了Skype协议的流量,是如何实现识别的?

王占一:谈到这个问题,还是离不开准确率的。通过浏览器出来的应用流量准确率可能在80%左右,因为并没有针对Skype协议特征专门做识别,用的是通用的方法。

举个例子,当数据很大的时候,利用这些数据建完模型,可以看到图像的特征,流量的特征,这些特征是机器自己学出来的,可以看到在任何一个长度里的字节特征,可以判断哪些特征是有用的,权重是多少,根据权重的分布就能知道哪些数据是有用的,哪些是没用的,这样就可以把没用的删除。传统的方法是,根据每一种协议有什么特征,是否存在偏移,字符上的特点或者关联程度,需要人工来做出判别。而现在通过机器学习方法,就不需要去关注那些点,机器可以自己学出来。

InfoQ:深度学习需要的标注数据是很大的,您在实验过程中是如何解决海量数据标注这个难题的?

王占一:解决这个问题是有套路的,一种方式就是纯人工标注,对于图像、文本的标注是有一个基础的方法的。另一种套路就是机器利用单精度或者半精度(只有一小部分的标注样本)的方法生成一批结果,这批结果是机器在分类上识别不了的,无法判别的数据,我们会把这些重要数据拿出来,专门让人工进行标注。说白了就是不会让人工标注全量,只是标注一些关键的样本,然后再结合一些主动学习的算法,让少量的标注发挥很大的作用。

数据标注的量是很大的,基本上采用360内网的数据,数据的体量完全足够用于模型训练。因为我们主要是针对安全方面的研究,所以我们的研究结果还是比较客观的。

InfoQ:目前在应用流量识别精准度上所面临哪些挑战。

王占一:每天新增的应用太多了,所带来的类别也越来越多。但是如果新增的和已有的某一种应用很相似,而已有的应用之前并没有被机器学习到,导致新增的应用会被认错。那么解决“被认错”的方案就是先利用关联的方法把它找出来,通过神经网络每天对模型进行优化,不需要重新训练。就目前的状况老看,这是一个不可忽视的挑战。

其次就是,如果加密措施做得非常好的话,对识别的精准度也是很有影响的。

因为在安全领域,对精准度的要求是很严格的,或者说是苛刻的。例如现在很多手机App可以对人脸进行识别,预测年龄,如果把年纪大的人说成小鲜肉,用户会觉得这个App很有意思,不需要特别的精准。但是在安全领域,就不能出现这样“有意思”的事情,对病毒的识别必须要在99.999%准确度以上才可以投入产品阶段,这也是对用户体验的一种保证。

InfoQ:360已经将深度学习的人工神经网络算法引入到安全领域,深度学习会完全取代“数据清洗、数据整理、和数据标注”等方面的人工工作吗?

王占一:对于这一点,其实很多工作都是可以交给机器去做的,但是,关键在于机器无法取代人的想法,机器不会主动产生想法。Google在人工智能、机器学习方面有很大的进展,在深度学习方面不但开源了基于DistBelief研发的第二代人工智能学习系统TensorFlow,最近也公布了全新的TensorFlow自然语言处理模型SyntaxNet,机器可以做一些基础的工作,说白了就是“苦力活”,而一些复杂的创新性的工作内容,机器就不能胜任,需要人工的给机器定义。

InfoQ;参加被公认为世界信息安全行业的最高盛会Black Hat大会,并参与演讲,对您来说有哪些收获?

王占一:体会是比较多的,觉得外国技术专家的思路很开阔。同时也发现,这几年的Black Hat大会上的议题设置,数据科学研究方向的比重在不断的增加,可见数据在安全领域的重要性,360也在倡导“数据驱动安全”的理念,而且国内外的想法基本上是一致的。

美国的很多创业公司,也是秉承“数据驱动安全”的思路,他们所做的事情在我们看来只是某一种产品,或者是某一种产品的某一种功能,但是他们做的非常深入。大家的方法本身都是差不多的,区别在于两方面,一方面是数据。每个公司拿到的数据是不一样的,数据是基础,但是不同的数据产生的效果也是不一样的。其次就是对场景的分析,美国公司和我们的理解不一样,这个场景指的是数据和模型之间的连接纽带,数据生成的场景是什么,在什么场景下是有用的,如果要把产品做得好,就得把场景想的特别细。

InfoQ:有人说,深度学习尽管对当前人工智能的发展作用很大,但是深度学习工作者并非一帆风顺。您对此有什么见解,以后深度学习会给行业带来哪些颠覆?

王占一:深度学习确实存在一些难点,如果能获得海量的数据,或者是标注的数据,那么不管是什么初创公司,其价值都是很大的。例如在图像检测、人脸识别等方面,如果没有很好的标注样本,就很难实现识别目的的,即使是做人脸识别的,创业公司估计在这一块领域很少有做的比较出色的。

对于机器学习,如果从零开始,有基础知识,搭一个平台,有相关的数据,最后做到80%还是可以达到的。但是还想达到90%或者95%的水平,基本上在要求严格的安全领域是很难做到的。深度学习在后一阶段的研究是非常枯燥的,需要一点一点的调整优化参数。还要多关注各种领域的算法知识,考虑是否可以将别的算法应用到自己的研究范围内。360天眼团队经常会Brain-storming的方法来想一些好的点子。

最后寄予

在最后,王占一博士也总结了现在深度学习和机器学习方法的应用所遇到的挑战和机遇,尤其是在在安全领域还是有很大的发展空间和挑战的。王占一说:“虽然我们平时从事数据和算法研究相关工作,但时常会有别的部门的人来问我们,因为样板量太多而没办法自动分类,能不能帮忙想想办法利用机器学习的手段解决问题。可见,深度学习和机器学习的方法在很多领域还是可以做到改观的。所以,我们也希望有更多的数据科学的从业者能加入到安全领域。”

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注