@nataliecai1988
2017-08-03T09:49:08.000000Z
字数 5063
阅读 1201
大数据
总结
年中
小编友情提醒,2017年进度条已经走完58.5%,余额不足请充值。
距离上一次写下年度总结(2016年大数据80篇爆款文章:这一年你追过的那些技术)仿佛才过去没多久,没想到一眨眼又到了新一年该做年中总结的时候了(此处响起“舌尖上的中国”背景音:又到了丰收的时节……)。2017年已经进行到后半程,你曾经追过的那些大数据技术又有了哪些变化?去年年末对2017年大数据领域的预测如今又实现了多少?
在2017年已经过去的214天里,大数据杂谈一共发布了157篇文章,又攒下了不少优质内容。我们从中精选出了一部分,按照文章内容分主题进行了汇总,分为:机器学习、深度学习企业实践、TensorFlow、计算力、流处理、Apache家族、用户画像和推荐系统、大数据系统和数据挖掘实践、数据库、大数据人的成长之路。
今年机器学习已经成为炙手可热的技术话题。深度学习与人工智能技术正在改变人们的生活,同时也给企业管理海量数据提供了一些新的思路和尝试的方向。2017年,越来越多的企业开始尝试将机器学习引入原有的大数据平台和框架中,也有更多企业加入了构建机器学习平台的大军中。
不过短短半年,大数据杂谈已经积累了很多关于机器学习的内容,从平台架构到框架算法再到实践案例,机器学习几乎无处不在。
企业机器学习平台构建方面,百度带来了自研的PaddlePaddle深度学习平台,它的出发点是性能第一、兼顾灵活易用;腾讯已经将Angel高性能计算平台在GitHub上开源,并推出了专门的深度学习平台DI-X,借助Angel将可以提供更强的性能支持。
百度PaddlePaddle深度学习平台:面向工程师,性能优先
在Angel开源前的这半年,我们对架构和性能做了哪些重构和升级?
大数据杂谈7月份在社群中组织了一次“范式主题月”,由第四范式跟大家分享了更多关于与机器学习平台搭建相关的技术和经验,总结文章上周新鲜出炉。
机器学习的实施除了需要稳定、性能强劲的平台架构,还涉及到数据收集和预处理、特征工程、算法等诸多环节。这里奉上一些不同环节的优秀实践案例。
机器学习技术与不同的公司业务相遇会碰出怎样的火花?下面是来自多家企业在各自业务领域应用机器学习技术的经验分享,依次是京东、数库科技、Quora和Google。
自2012年ImageNet大赛技惊四座后,深度学习已经成为近年来机器学习和人工智能领域中关注度最高的技术。
如今ImageNet已经步入第八年并结束了最后一届挑战赛。这几年深度学习在多个应用领域都取得了令人瞩目的进展,如语音识别、图像识别、自然语言处理等。鉴于深度学习的潜力,各大公司纷纷投入资源开展科研与运用。这里集合了一些公司对深度学习技术的实践案例,分别来自京东、欢聚时代、海航、Twitter和美团点评。
随着机器学习、深度学习变得炙手可热,以TensoFlow为代表的一系列深度学习与神经网络框架也迅猛发展。
深度学习利器: TensorFlow系统架构及高性能程序设计
专栏 | 深入浅出Tensorflow:深度学习及Google深度学习框架
今年3月份Google召开了首届TensorFlow开发者峰会,并在会上发布了稳定版本的TensorFlow V1.0
为了能更好地在Spark集群上运行TensorFlow,Yahoo开源了TensorFlowOnSpark,不管是对TensorFlow还是对那些苦于不同类型数据维护的公司来说都无疑是一个好消息。
Spark上的深度学习框架再添新兵:Yahoo开源TensorFlowOnSpark
下面这篇文章是TensorFlow模型部署的一个范例。
当然TensorFlow也非一枝独秀。今年四月份Facebook宣布开源产业级深度学习框架Caffe2,为开发者带来跨平台机器学习工具;而轻量级分布式深度学习框架MXNet也在年初成为Apache孵化器项目。下面这篇文章集中对主流深度学习框架的特点、性能进行了分析和比较。
TensorFlow和Caffe、CNTK、MXNet等其他7种深度学习框架的对比
百度前首席科学家Andrew Ng提到,人工智能的春天已经到来,其重要因素之一是GPU处理能力的提升。
大数据、算法和计算能力决定了人工智能的发展。在计算领域上,主要依靠的硬件就是 GPU、CPU,以及今年刚推出的TPU,背后是英伟达、英特尔和谷歌的角力。伴随着这些公司的股价一路上涨的趋势,也能看出并行计算的再次崛起。
专访高性能计算领军人物刘文志:并行计算的未来,是让人工智能无处不在
AlphaGo乌镇对决是谷歌精心策划的推销?继CPU和GPU之后,TPU又是个什么鬼?
深度学习需要较高的计算能力,所以对GPU的选择会极大地影响使用者体验。下面这两篇文章介绍了如何选择GPU,为刚开始涉入GPU开发领域的朋友提供一些参考。
流式数据处理担任的角色日益重要,越来越多的企业采用流式数据来支撑自己分析、预测,从而能够更快速地做出决策。大数据杂谈持续关注流处理技术并收录了一些优秀的流处理文章,包括Spark流、Kafka流、Apache Flink,还有备受关注的萌新Apache Beam。
在数据流中使用SQL查询:Apache Flink中的动态表的持续查询
在大数据处理和计算平台百花齐放的今天,Beam旨在屏蔽不同计算框架和开发API的差异性,为开发者提供一个真正与引擎和环境无关的数据处理框架。经过几个月的演化和改进,Beam已经成长为Apache顶级项目并发布了第一个稳定版本。如今Google Cloud、PayPal、Talend等公司都在使用 Beam。
Apache Beam发布第一个稳定版本,并且有这些公司正在使用它
Apache Beam的前世今生:谷歌已经不再使用MapReduce了
Apache Beam成功孵化为Apache顶级项目:将统一大数据平台的开发
下面是一些企业自研流处理架构的情况,分别来自同程、携程、Uber和唯品会的分享。
开源“Chaperone”:Uber是如何对Kafka进行端到端审计的
实时离线融合在唯品会的进展:在实时技术、数据、业务中寻找平衡
作为大数据处理的基石,Apache家族成员众多。除了前面提到Spark、MXNet、Flink和Beam,还有大数据安全和性能开源解决方案Apache Eagle、数据管理平台Apache Geode、Hadoop生态安全管理框架Apache Ranger和大名鼎鼎的神兽Apache Kylin。
大数据管理平台Apache Geode 分布式系统内部结构剖析
大数据安全和性能开源解决方案Apache Eagle,毕业成为Apache顶级项目
下面是分别来自链家、美团和唯品会对Apache Kylin的一些应用案例。
这依然是一个“得用户者得天下”的时代,因此精准的用户画像和个性化推荐系统仍是众多企业运营必不可少的工具。相比往年,今年的用户画像和个性化推荐系统或多或少能看到一些机器学习的身影。另外,我们将一些用户画像的优秀实践案例集中到了电子书中:《架构师特刊:用户画像实践》。
这七家大公司的实践,告诉你用户画像到底该怎么做 | 免费下载电子书
通过京东618谈电商平台的推荐系统:渗透每个环节,肩负建设平台生态
数据平台部分也积攒了不少内容:普元软件、明略数据、达观数据、eBay、58、阿里、美团,最后是携程带来的爬虫与反爬虫套路。
从分布式管理到多租户实现,企业级大数据系统如何利用开源生态构建?
每天上百万次调用的巨量访问系统缓存数据丢失?看eBay的三种处理方案
阿里Goldeneye业务监控平台之架构演进,如何实时处理100T+/天的日志量?
大数据离不开数据存储,而时间序列数据渐渐在我们的世界中发挥更大的作用。软件开发人员的使用模式早已反映了这一点,在过去的 24 个月中,时间序列数据库(TSDB)已经成为增长最快的类别(数据来自DB-Engines.com)。
百度无人车和天工物联网都使用了时序数据库,但是你有多了解时序数据库?
技术解读:Facebook开源内存数据库Beringei,如何做到极致的压缩率
业界追求更优的大数据存储数据库和数据库搜索引擎的脚步从未停止。
由舜飞科技开发的IndexR 是一个开源的大数据存储格式(下载地址https://github.com/shunfei/indexr),旨在通过添加索引、优化编码方式、提高IO效率等方式提升计算曾和存储层的数据交换效率,从而提升整体性能,已于 2017 年 1 月初正式开源。
机器学习也被引入用于数据库调优。
第一篇文章为大家提供了一个有关大数据领域详细的“国情咨文”,以及投资机构针对这一行业的见解和关键趋势。
AI时代来临,个人和企业该如何武装自己?
老司机用十几年的职业阅历告诉你:如何成为一名优质的数据科学家
感谢大家一直以来的支持和陪伴!希望接下来的时间里我们能给大家带来更多好内容,欢迎大家投稿和分享技术!另外大数据杂谈一直在做微信群技术分享,在这里也感谢每位分享讲师带来的干货,欢迎大家踊跃入群!