[关闭]
@nataliecai1988 2017-08-03T09:49:08.000000Z 字数 5063 阅读 1114

2017年已经过去214天,大数据杂谈80篇精选文章千万别又双叒叕错过啦

大数据 总结 年中


小编友情提醒,2017年进度条已经走完58.5%,余额不足请充值。

距离上一次写下年度总结(2016年大数据80篇爆款文章:这一年你追过的那些技术)仿佛才过去没多久,没想到一眨眼又到了新一年该做年中总结的时候了(此处响起“舌尖上的中国”背景音:又到了丰收的时节……)。2017年已经进行到后半程,你曾经追过的那些大数据技术又有了哪些变化?去年年末对2017年大数据领域的预测如今又实现了多少?

在2017年已经过去的214天里,大数据杂谈一共发布了157篇文章,又攒下了不少优质内容。我们从中精选出了一部分,按照文章内容分主题进行了汇总,分为:机器学习、深度学习企业实践、TensorFlow、计算力、流处理、Apache家族、用户画像和推荐系统、大数据系统和数据挖掘实践、数据库、大数据人的成长之路。

机器学习

今年机器学习已经成为炙手可热的技术话题。深度学习与人工智能技术正在改变人们的生活,同时也给企业管理海量数据提供了一些新的思路和尝试的方向。2017年,越来越多的企业开始尝试将机器学习引入原有的大数据平台和框架中,也有更多企业加入了构建机器学习平台的大军中。

不过短短半年,大数据杂谈已经积累了很多关于机器学习的内容,从平台架构到框架算法再到实践案例,机器学习几乎无处不在。

企业机器学习平台构建方面,百度带来了自研的PaddlePaddle深度学习平台,它的出发点是性能第一、兼顾灵活易用;腾讯已经将Angel高性能计算平台在GitHub上开源,并推出了专门的深度学习平台DI-X,借助Angel将可以提供更强的性能支持。

百度PaddlePaddle深度学习平台:面向工程师,性能优先

在Angel开源前的这半年,我们对架构和性能做了哪些重构和升级?

腾讯云推出深度学习平台,推动AI技术从炫技到落地应用

大数据杂谈7月份在社群中组织了一次“范式主题月”,由第四范式跟大家分享了更多关于与机器学习平台搭建相关的技术和经验,总结文章上周新鲜出炉。

你不得不看的六篇好文:企业搭建机器学习平台的要点

机器学习的实施除了需要稳定、性能强劲的平台架构,还涉及到数据收集和预处理、特征工程、算法等诸多环节。这里奉上一些不同环节的优秀实践案例。

数据开发常用的几种数据预处理和数据整理方法

如何解决特征工程,克服工业界应用 AI 的巨大难关

迁移学习实战:从算法到实践

迁移学习:数据不足时如何深度学习

开源跨平台推荐算法框架LibRec:包含70余例推荐算法

从模型选择到超参调整,六步教你如何为机器学习项目选择算法

这一年来,数据科学家都用哪些算法?

阿里巴巴为什么要选择星际争霸作为AI算法研究环境?

机器学习技术与不同的公司业务相遇会碰出怎样的火花?下面是来自多家企业在各自业务领域应用机器学习技术的经验分享,依次是京东、数库科技、Quora和Google。

Spark技术在京东智能供应链预测的应用

智能问答在金融领域中的实践与应用

2017年,机器学习在Quora的五大应用场景

Google Play如何利用机器学习来个性化推荐App

深度学习企业实践

自2012年ImageNet大赛技惊四座后,深度学习已经成为近年来机器学习和人工智能领域中关注度最高的技术。

如今ImageNet已经步入第八年并结束了最后一届挑战赛。这几年深度学习在多个应用领域都取得了令人瞩目的进展,如语音识别、图像识别、自然语言处理等。鉴于深度学习的潜力,各大公司纷纷投入资源开展科研与运用。这里集合了一些公司对深度学习技术的实践案例,分别来自京东、欢聚时代、海航、Twitter和美团点评。

京东618:如何运用深度学习从多个维度优化数亿级别商品数据

游戏中的深度学习与人工智能

利用深度学习方法进行情感分析以及在海航舆情云平台的实践

推你想看的,Twitter如何在信息流中大规模应用深度学习

深度学习在美团点评推荐平台排序中的运用

TensorFlow

随着机器学习、深度学习变得炙手可热,以TensoFlow为代表的一系列深度学习与神经网络框架也迅猛发展。

深度学习利器: TensorFlow系统架构及高性能程序设计

专栏 | 深入浅出Tensorflow:深度学习及Google深度学习框架

今年3月份Google召开了首届TensorFlow开发者峰会,并在会上发布了稳定版本的TensorFlow V1.0

首届TensorFlow开发者大会:那些好玩的和黑科技

为了能更好地在Spark集群上运行TensorFlow,Yahoo开源了TensorFlowOnSpark,不管是对TensorFlow还是对那些苦于不同类型数据维护的公司来说都无疑是一个好消息。

Spark上的深度学习框架再添新兵:Yahoo开源TensorFlowOnSpark

下面这篇文章是TensorFlow模型部署的一个范例。

TensorFlow在产品环境中运行模型的实践经验总结

当然TensorFlow也非一枝独秀。今年四月份Facebook宣布开源产业级深度学习框架Caffe2,为开发者带来跨平台机器学习工具;而轻量级分布式深度学习框架MXNet也在年初成为Apache孵化器项目。下面这篇文章集中对主流深度学习框架的特点、性能进行了分析和比较。

TensorFlow和Caffe、CNTK、MXNet等其他7种深度学习框架的对比

计算力

百度前首席科学家Andrew Ng提到,人工智能的春天已经到来,其重要因素之一是GPU处理能力的提升。

大数据、算法和计算能力决定了人工智能的发展。在计算领域上,主要依靠的硬件就是 GPU、CPU,以及今年刚推出的TPU,背后是英伟达、英特尔和谷歌的角力。伴随着这些公司的股价一路上涨的趋势,也能看出并行计算的再次崛起。

专访高性能计算领军人物刘文志:并行计算的未来,是让人工智能无处不在

AlphaGo乌镇对决是谷歌精心策划的推销?继CPU和GPU之后,TPU又是个什么鬼?

深度学习需要较高的计算能力,所以对GPU的选择会极大地影响使用者体验。下面这两篇文章介绍了如何选择GPU,为刚开始涉入GPU开发领域的朋友提供一些参考。

数据平台上的计算能力:哪些GPU更适合深度学习和数据库?

英伟达深度学习专家路川详解“如何升级GPU深度学习系统”

流处理

流式数据处理担任的角色日益重要,越来越多的企业采用流式数据来支撑自己分析、预测,从而能够更快速地做出决策。大数据杂谈持续关注流处理技术并收录了一些优秀的流处理文章,包括Spark流、Kafka流、Apache Flink,还有备受关注的萌新Apache Beam。

在数据流中使用SQL查询:Apache Flink中的动态表的持续查询

Spark Streaming中流式计算的困境与解决之道

kafka数据可靠性深度解读

在大数据处理和计算平台百花齐放的今天,Beam旨在屏蔽不同计算框架和开发API的差异性,为开发者提供一个真正与引擎和环境无关的数据处理框架。经过几个月的演化和改进,Beam已经成长为Apache顶级项目并发布了第一个稳定版本。如今Google Cloud、PayPal、Talend等公司都在使用 Beam。

Apache Beam发布第一个稳定版本,并且有这些公司正在使用它

Apache Beam的前世今生:谷歌已经不再使用MapReduce了

Apache Beam成功孵化为Apache顶级项目:将统一大数据平台的开发

下面是一些企业自研流处理架构的情况,分别来自同程、携程、Uber和唯品会的分享。

同程旅游实时计算的演进

携程实时用户数据采集与分析系统

携程实时用户行为系统实践

开源“Chaperone”:Uber是如何对Kafka进行端到端审计的

实时离线融合在唯品会的进展:在实时技术、数据、业务中寻找平衡

Apache家族

作为大数据处理的基石,Apache家族成员众多。除了前面提到Spark、MXNet、Flink和Beam,还有大数据安全和性能开源解决方案Apache Eagle、数据管理平台Apache Geode、Hadoop生态安全管理框架Apache Ranger和大名鼎鼎的神兽Apache Kylin。

大数据管理平台Apache Geode 分布式系统内部结构剖析

大数据安全和性能开源解决方案Apache Eagle,毕业成为Apache顶级项目

下面是分别来自链家、美团和唯品会对Apache Kylin的一些应用案例。

Apache Kylin在链家GAIA大数据平台中的实践

Apache Kylin在美团点评的应用

美团Apache Kylin精确去重指标优化历程

Apache Kylin在唯品会大数据的应用

用户画像和推荐系统

这依然是一个“得用户者得天下”的时代,因此精准的用户画像和个性化推荐系统仍是众多企业运营必不可少的工具。相比往年,今年的用户画像和个性化推荐系统或多或少能看到一些机器学习的身影。另外,我们将一些用户画像的优秀实践案例集中到了电子书中:《架构师特刊:用户画像实践》。

2017年,你还在用用户画像和协同过滤做推荐系统吗?

关于用户画像产品构建和应用的几点经验

这七家大公司的实践,告诉你用户画像到底该怎么做 | 免费下载电子书

通过京东618谈电商平台的推荐系统:渗透每个环节,肩负建设平台生态

一个以推荐系统为主业务的公司会涉及到哪些方面的技术?

源于生活,谈谈时间衰变在推荐场景中的应用

大数据平台和数据挖掘实践

数据平台部分也积攒了不少内容:普元软件、明略数据、达观数据、eBay、58、阿里、美团,最后是携程带来的爬虫与反爬虫套路。

建设大数据平台,从“治理”数据谈起

从存储、实时、安全的角度谈如何建立完整可用的企业大数据平台

从分布式管理到多租户实现,企业级大数据系统如何利用开源生态构建?

每天上百万次调用的巨量访问系统缓存数据丢失?看eBay的三种处理方案

兼顾稳定和性能,58大数据平台的技术演进与实践

阿里Goldeneye业务监控平台之架构演进,如何实时处理100T+/天的日志量?

HDFS Federation在美团点评的应用与改进

别让你的老板进监狱也别让你的用户受伤害,谈爬虫反爬虫套路

数据库

大数据离不开数据存储,而时间序列数据渐渐在我们的世界中发挥更大的作用。软件开发人员的使用模式早已反映了这一点,在过去的 24 个月中,时间序列数据库(TSDB)已经成为增长最快的类别(数据来自DB-Engines.com)。

我们为什么需要一个时序数据库?

应对数十亿的时序数据,这个开源项目的思路是否值得你借鉴?

百度无人车和天工物联网都使用了时序数据库,但是你有多了解时序数据库?

时序数据库如何支持秒级上亿数据的查询分组和聚合运算

以无损和有损压缩的两个例子,来看时序数据库的最佳压缩方案

技术解读:Facebook开源内存数据库Beringei,如何做到极致的压缩率

业界追求更优的大数据存储数据库和数据库搜索引擎的脚步从未停止。

主流开源SQL引擎总结,不断改进的Hive始终遥遥领先

比起传统单机数据库,怎样看待分布式数据库优势与前景?

一篇文章掌握Sql-On-Hadoop核心技术

有赞大数据实践: 敏捷型数据仓库的构建及其应用

由舜飞科技开发的IndexR 是一个开源的大数据存储格式(下载地址https://github.com/shunfei/indexr),旨在通过添加索引、优化编码方式、提高IO效率等方式提升计算曾和存储层的数据交换效率,从而提升整体性能,已于 2017 年 1 月初正式开源。

开源IndexR:如何对上千亿的数据进行秒级探索式分析

机器学习也被引入用于数据库调优。

亚马逊推出机器学习工具给数据库调优,DBA要失业了?

大数据人的成长之路

第一篇文章为大家提供了一个有关大数据领域详细的“国情咨文”,以及投资机构针对这一行业的见解和关键趋势。

火力全开:大数据领域2017年全景剖析

AI时代来临,个人和企业该如何武装自己?

大数据领域里的企业和个人该如何全力靠拢人工智能?

大数据的发展,伴随的将是软件工程师的渐退,算法工程师的崛起

《图解Spark:核心技术与案例实战》作者经验谈

老司机用十几年的职业阅历告诉你:如何成为一名优质的数据科学家

在新的一年里,选个关注热度上升的大数据工具学习下吧

感谢大家一直以来的支持和陪伴!希望接下来的时间里我们能给大家带来更多好内容,欢迎大家投稿和分享技术!另外大数据杂谈一直在做微信群技术分享,在这里也感谢每位分享讲师带来的干货,欢迎大家踊跃入群!

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注