文章链接
我们处在数据时代
数据也疯狂
数据和每个人甚至是每个时代都息息相关,即使你穿越到人类才刚刚学会使用工具的石器时代,假如你就是那个手握石斧,躲在草丛之后窥视一群肥羊的原始人,你都要在心理盘算着这样一堆数据。我已经2天没吃饭了,以现在的体力,我的奔跑速度只能抓到羊群中那只最小的羊,这只羊大约有30斤,我家里一家老小共5人,追到这只肥羊省着点吃,可以吃上3天……假如你还是一个喜欢记录的原始人,篱笆上的绳结记录着你捕到的肥羊数,家里的墙壁上还画着一条条线,记录着在没有羊吃的日子里,你欠邻居的肥羊数……
你说,你不喜欢数羊,一数羊,你就犯困,好吧,那让我们穿越回来好了。现在是7:30分,你已经开始挤地铁去公司了,今天是星期一,上班的人很多,刚刚过去的那趟地铁,你没有挤上去,在距离门口2米的时候,地铁关门的声音就响起来了,你拿出手机拍了几张挤地铁的照片发到朋友圈抱怨一下今天的人真多。下一趟地铁3分钟后到达,这时候,你瞟了一眼你的运动手环,你现在已经走了6851步,消耗了252卡路里,相当于1个汉堡热量,地铁进站了,你挤上了地铁,随手拍了一个长度15秒的视频,发到抖音上,记录一下地铁关门的一瞬间,那些即将上班迟到的人生无可恋的表情,在配上一段幸灾乐祸的音乐。忽然想起了,今天是618,你打开京东,你心仪已久的那款运动相机开始降价了,赶紧加入购物车,你发现购物车下方,又为你推荐了运动相机支架、充电电池,运动相机收纳包,甚至你喜欢吃的辣条也在里面……
这些就是你正在产生的数据,朋友圈的照片,抖音上的小视频,运动手环记录的步数,电商网站上的购买商品,搜索记录等等。而这仅仅是你一个人,在上班路上所产生的数据。很多终端都在贡献数据,包括交通路口摄像头的监控数据,机场安检时,你刷脸的数据等等,根据 Google 的报告,从人类文明产生以来到 2003 年为止,人类产生了 5 艾字节的数据,而现在人类在互联网上平均每 2 天就产生大约 5艾字节(2^60)的数据。那么5艾字节有多大呢,大约相当于14亿张 DVD 光盘的存储量(每张DVD 光盘大约 4 G),如果每张光盘的厚道按1.5毫米计算,那么14亿张 DVD 叠起来厚度有2100公里,这大约是从深圳自驾到北京的距离。而这些数据很大一部分都是传统工具无法处理的非结构化数据。
人类产生的数据包括结构化数据和非结构化数据,从 2012 年以来,非结构化数据呈现出爆炸式增长,而到 2020 年数据总量将达到 50000 艾字节,而其中非结构化数据将达到 10000艾字节。如此疯狂增长的数据也给我们带来了无限商机。
指数级增长的大数据市场
现在的企业已经慢慢的意识到大数据能够给它们带来更多的商机。正如前面你在京东上购买运动相机的例子中所提到的,当你把运动相机添加到购物车的时候,京东的大数据平台会根据推荐算法,为你推荐运动相机支架,甚至根据你的搜索记录,购买记录顺便向你推荐了一包辣条,通过一台运动相机的销售,带来了相机支架甚至辣条的销售机会。你在抖音上查看小视频的时候,也会带来某款网红商品的销售机会。
而在印度,数据分析领域已经达到8倍的增长。根据 NASSCOM(印度软件和服务业企业行业协会)的数据,到 2025 年将从 20 亿美元增长到 160 亿美元。大数据市场来势凶猛。
随着大数据市场的增长,对大数据技术的需求也在增长。而 Hadoop 作为大数据处理平台,因为其开源,经济,可靠,可扩展等众多优势,而被众多厂商使用。下图我们可以看到 Hadoop 的市场增长情况:

从 2013 年到 2020 年 Hadoop 市场的年综合增长率达到58.2%。从 2012 年的 15 亿美元增长到502 亿美元。
Hadoop翩翩而来
Hadoop的彩蛋
Hadoop 最初用于 Nutch 搜索引擎项目,该项目由 Doug Cutting 带头开发,因此 Doug Cutting 也被称为 Hadoop 之父。 Hadoop 的名字源于 Doug Cutting儿子的一个玩偶的名字,当时 Doug Cutting 想为自己的项目起一个名字,既要简单,又要朗朗上口,而小孩子是起这类名字的天才。刚好 Doug Cutting 的儿子有一个黄色的小象玩偶,儿子称它为 Hadoop,因此,Doug Cutting 就把这个名字借用了过来。
由于 Hadoop 作为一个开源项目,而且能够运行在普通硬件上,因此降低了企业的使用成本,越来越多的企业开始使用 Hadoop,没想到这个曾经的玩偶小象,现在成为大数据领域所向披靡的大象。
健壮的Hadoop生态系统
Hadoop 具备非常健壮而丰富的生态系统,从而服务于各类组织。对于初创企业,电信,金融等各行各业都需要 Hadoop 去解决它们的业务需求。

Hadoop 生态系统包含了很多组件,包括像 MapReduce,Hive,HBase,Zookeeper,Apache,Pig 等等。这些组件所支持的应用非常广泛。我们可以使用 Map-Reduce 来基于大数据进行聚合及汇总。
Hive 是基于 HDFS 上层的数据仓库项目。它提供了类似 SQL 这样的数据查询和分析接口。
HBase 是一个 NoSQL 数据库。它提供了实时读写大数据集的能力。它天生就和 Hadoop 集成在一起。
Pig 是一个用在 Hadoop 上面的高级脚本语言。它把数据分析问题描述为数据流。使用 Pig 我们可以完成对数据的所有操控。
Zookeeper 是一个开源的服务它在各种分布式过程之间做协调调度。分布式应用程序使用Zookeeper 存储和更新重要的配置信息。
研究工具
到每年年底正是忙着写年终总结的时候,相信很多人也会收到一些电商网站对你的总结,比如,这一年来,你购买了哪些商品,最大的一笔支出是什么时候,如果你买了很多户外运动商品,它会给你打上运动达人的标签,如果你购买的厨房用品很多,你会被贴上顾家一族的标签等等,这些正是电商平台应用 Hadoop 为用户画像来分析用户的购买行为,利用这些分析结果,它们可以更贴近客户,精确推销自己的商品。
Hadoop正在变成强大的研究工具,它有助于一个组织发现它们的业务问题。Hadoop帮助它们从事研究和开发工作。应用大数据技术能够改进运营效率增加收入。它可以让你更好的理解业务数据而促进业务增长。通过大数据技术和IT技术,不同公司之间的信息交流和发布更便捷,一些组织可以从它们的客户那里搜集数据来发展它们的业务。
易用
Hadoop 的创建者使用 Java 语言开发了 Hadoop,而 Java 拥有最大的开发者社区,因此,Hadoop 很容易被程序开发者所采用。当然,你也可以采用其他语言,比如 C、C++、Python、Perl、Ruby 等等。如果你熟悉SQL,使用起 Hive 将非常轻松。如果你熟悉脚本,那么 Pig 就非常适合你。
Hadoop 在后端并行处理所有数据。在编码过程中,你不必担心分布式处理的复杂性。我们只需要编写驱动程序,mapper 和 Reducer 功能。Hadoop 框架会为我们考虑在分布式环境下数据该如何存储和处理。
在 Hadoop 中引入 Spark 之后,生态圈的编码变得更加轻松。在 MapReduce 中,我们需要编写上千行的代码,而在 Spark 中,实现同样的功能只需要寥寥几行代码。
Hadoop 无处不在
现在几乎没有不用到大数据的行业。大数据几乎覆盖到了所有领域,比如,医疗,零售,政府,银行,媒体,运输,自然研究等等。人们的大数据意识也在进步,人们开始意识到数据的强大力量。
Hadoop 框架能够驾驭数据为业务服务。世界上所有的公司都想试图访问各类社交信息。它们这样做的目的无非是想提高它们的业绩获得更高的利润。很多组织面临从种类繁杂的数据中提前有价值信息的问题。Hadoop 有能力为研究领域,业务市场等带来革命性的变革。
很多知名公司都雇佣 Hadoop 专家,因此学习 Hadoop 有助于你实现进入这些知名公司的梦想。
技术成熟
Hadoop 与时俱进,新版本的 Hadoop(Hadoop 3.0)已经进入市场。它已经和 HortonWorks、Tableau、MapR 进行合作,甚至 BI 专家也开始青睐它Spark,Flink 等也进入大数据市场,这些技术加速了数据处理速度。Hadoop 为这些技术提供了健壮的数据存储能力。
Spark 的到来促进了 Hadoop 生态系统,强化了 Hadoop 的处理能力。Spark 的建立者设计 Spark能够工作在Hadoop 分布式存储系统 HDFS 之上。Spark 也可以工作在 HBase 以及 Amazon S3 云服务之上。即使你使用Hadoop 1.x,你也可以从 Spark 中受益。
最新的 Flink 技术也对 Hadoop 兼容。你不必改动任何一行代码就可以在 Flink 中使用所有MapReduce API。Flink 也支持 Hadoop 原生数据类型,比如,Writable 和 Writable Comparable。我们可以在 Flink 程序中使用 Hadoop 功能。我们可以在 Flink 中混入 Hadoop 的功能。