@nataliecai1988 2017-08-03T09:49:08.000000Z 字数 5063 阅读 1448

2017年已经过去214天，大数据杂谈80篇精选文章千万别又双叒叕错过啦

大数据 总结 年中

小编友情提醒，2017年进度条已经走完58.5%，余额不足请充值。

距离上一次写下年度总结（2016年大数据80篇爆款文章：这一年你追过的那些技术）仿佛才过去没多久，没想到一眨眼又到了新一年该做年中总结的时候了（此处响起“舌尖上的中国”背景音：又到了丰收的时节……）。2017年已经进行到后半程，你曾经追过的那些大数据技术又有了哪些变化？去年年末对2017年大数据领域的预测如今又实现了多少？

在2017年已经过去的214天里，大数据杂谈一共发布了157篇文章，又攒下了不少优质内容。我们从中精选出了一部分，按照文章内容分主题进行了汇总，分为：机器学习、深度学习企业实践、TensorFlow、计算力、流处理、Apache家族、用户画像和推荐系统、大数据系统和数据挖掘实践、数据库、大数据人的成长之路。

机器学习

今年机器学习已经成为炙手可热的技术话题。深度学习与人工智能技术正在改变人们的生活，同时也给企业管理海量数据提供了一些新的思路和尝试的方向。2017年，越来越多的企业开始尝试将机器学习引入原有的大数据平台和框架中，也有更多企业加入了构建机器学习平台的大军中。

不过短短半年，大数据杂谈已经积累了很多关于机器学习的内容，从平台架构到框架算法再到实践案例，机器学习几乎无处不在。

企业机器学习平台构建方面，百度带来了自研的PaddlePaddle深度学习平台，它的出发点是性能第一、兼顾灵活易用；腾讯已经将Angel高性能计算平台在GitHub上开源，并推出了专门的深度学习平台DI-X，借助Angel将可以提供更强的性能支持。

百度PaddlePaddle深度学习平台：面向工程师，性能优先

在Angel开源前的这半年，我们对架构和性能做了哪些重构和升级？

腾讯云推出深度学习平台，推动AI技术从炫技到落地应用

大数据杂谈7月份在社群中组织了一次“范式主题月”，由第四范式跟大家分享了更多关于与机器学习平台搭建相关的技术和经验，总结文章上周新鲜出炉。

你不得不看的六篇好文：企业搭建机器学习平台的要点

机器学习的实施除了需要稳定、性能强劲的平台架构，还涉及到数据收集和预处理、特征工程、算法等诸多环节。这里奉上一些不同环节的优秀实践案例。

数据开发常用的几种数据预处理和数据整理方法

如何解决特征工程，克服工业界应用 AI 的巨大难关

迁移学习实战：从算法到实践

迁移学习：数据不足时如何深度学习

开源跨平台推荐算法框架LibRec：包含70余例推荐算法

从模型选择到超参调整，六步教你如何为机器学习项目选择算法

这一年来，数据科学家都用哪些算法？

阿里巴巴为什么要选择星际争霸作为AI算法研究环境？

机器学习技术与不同的公司业务相遇会碰出怎样的火花？下面是来自多家企业在各自业务领域应用机器学习技术的经验分享，依次是京东、数库科技、Quora和Google。

Spark技术在京东智能供应链预测的应用

智能问答在金融领域中的实践与应用

2017年，机器学习在Quora的五大应用场景

Google Play如何利用机器学习来个性化推荐App

深度学习企业实践

自2012年ImageNet大赛技惊四座后，深度学习已经成为近年来机器学习和人工智能领域中关注度最高的技术。

如今ImageNet已经步入第八年并结束了最后一届挑战赛。这几年深度学习在多个应用领域都取得了令人瞩目的进展，如语音识别、图像识别、自然语言处理等。鉴于深度学习的潜力，各大公司纷纷投入资源开展科研与运用。这里集合了一些公司对深度学习技术的实践案例，分别来自京东、欢聚时代、海航、Twitter和美团点评。

京东618：如何运用深度学习从多个维度优化数亿级别商品数据

游戏中的深度学习与人工智能

利用深度学习方法进行情感分析以及在海航舆情云平台的实践

推你想看的，Twitter如何在信息流中大规模应用深度学习

深度学习在美团点评推荐平台排序中的运用

TensorFlow

随着机器学习、深度学习变得炙手可热，以TensoFlow为代表的一系列深度学习与神经网络框架也迅猛发展。

深度学习利器： TensorFlow系统架构及高性能程序设计

专栏 | 深入浅出Tensorflow：深度学习及Google深度学习框架

今年3月份Google召开了首届TensorFlow开发者峰会，并在会上发布了稳定版本的TensorFlow V1.0

首届TensorFlow开发者大会：那些好玩的和黑科技

为了能更好地在Spark集群上运行TensorFlow，Yahoo开源了TensorFlowOnSpark，不管是对TensorFlow还是对那些苦于不同类型数据维护的公司来说都无疑是一个好消息。

Spark上的深度学习框架再添新兵：Yahoo开源TensorFlowOnSpark

下面这篇文章是TensorFlow模型部署的一个范例。

TensorFlow在产品环境中运行模型的实践经验总结

当然TensorFlow也非一枝独秀。今年四月份Facebook宣布开源产业级深度学习框架Caffe2，为开发者带来跨平台机器学习工具；而轻量级分布式深度学习框架MXNet也在年初成为Apache孵化器项目。下面这篇文章集中对主流深度学习框架的特点、性能进行了分析和比较。

TensorFlow和Caffe、CNTK、MXNet等其他7种深度学习框架的对比

计算力

百度前首席科学家Andrew Ng提到，人工智能的春天已经到来，其重要因素之一是GPU处理能力的提升。

大数据、算法和计算能力决定了人工智能的发展。在计算领域上，主要依靠的硬件就是 GPU、CPU，以及今年刚推出的TPU，背后是英伟达、英特尔和谷歌的角力。伴随着这些公司的股价一路上涨的趋势，也能看出并行计算的再次崛起。

专访高性能计算领军人物刘文志：并行计算的未来，是让人工智能无处不在

AlphaGo乌镇对决是谷歌精心策划的推销？继CPU和GPU之后，TPU又是个什么鬼？

深度学习需要较高的计算能力，所以对GPU的选择会极大地影响使用者体验。下面这两篇文章介绍了如何选择GPU，为刚开始涉入GPU开发领域的朋友提供一些参考。

数据平台上的计算能力：哪些GPU更适合深度学习和数据库？

英伟达深度学习专家路川详解“如何升级GPU深度学习系统”

流处理

流式数据处理担任的角色日益重要，越来越多的企业采用流式数据来支撑自己分析、预测，从而能够更快速地做出决策。大数据杂谈持续关注流处理技术并收录了一些优秀的流处理文章，包括Spark流、Kafka流、Apache Flink，还有备受关注的萌新Apache Beam。

在数据流中使用SQL查询：Apache Flink中的动态表的持续查询

Spark Streaming中流式计算的困境与解决之道

kafka数据可靠性深度解读

在大数据处理和计算平台百花齐放的今天，Beam旨在屏蔽不同计算框架和开发API的差异性，为开发者提供一个真正与引擎和环境无关的数据处理框架。经过几个月的演化和改进，Beam已经成长为Apache顶级项目并发布了第一个稳定版本。如今Google Cloud、PayPal、Talend等公司都在使用 Beam。

Apache Beam发布第一个稳定版本，并且有这些公司正在使用它

Apache Beam的前世今生：谷歌已经不再使用MapReduce了

Apache Beam成功孵化为Apache顶级项目：将统一大数据平台的开发

下面是一些企业自研流处理架构的情况，分别来自同程、携程、Uber和唯品会的分享。

同程旅游实时计算的演进

携程实时用户数据采集与分析系统

携程实时用户行为系统实践

开源“Chaperone”：Uber是如何对Kafka进行端到端审计的

实时离线融合在唯品会的进展：在实时技术、数据、业务中寻找平衡