博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
安装关系型数据库MySQL 安装大数据处理框架Hadoop
阅读量:5150 次
发布时间:2019-06-13

本文共 1500 字,大约阅读时间需要 5 分钟。

1.Hadoop的介绍

  • Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。
  • 2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。
  • ——分布式文件系统(GFS),可用于处理海量网页的存储
  • ——分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题。
  • Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE,并从Nutch中剥离成为独立项目HADOOP,到2008年1月,HADOOP成为Apache顶级项目(同年,cloudera公司成立),迎来了它的快速发展期。
  • 狭义上来说,hadoop就是单独指代hadoop这个软件,
  • 广义上来说,hadoop指代大数据的一个生态圈,包括很多其他的软件

2.Hadoop是什么?

  • Hadoop: 适合大数据的分布式存储和计算平台
  • Hadoop不是指具体一个框架或者组件,它是Apache软件基金会下用Java语言开发的一个开源分布式计算平台。实现在大量计算机组成的集群中对海量数据进行分布式计算。适合大数据的分布式存储和计算平台。
  • Hadoop1.x中包括两个核心组件:MapReduce和Hadoop Distributed File System(HDFS)
  • 其中HDFS负责将海量数据进行分布式存储,而MapReduce负责提供对数据的计算结果的汇总

3.Hadoop的起源

  • 2003-2004年,Google公布了部分GFS和MapReduce思想的细节,受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。然后Yahoo招安Doug Gutting及其项目。
  • 2005年,Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。
  • 2006年2月被分离出来,成为一套完整独立的软件,起名为Hadoop
  • Hadoop名字不是一个缩写,而是一个生造出来的词。是Hadoop之父Doug Cutting儿子毛绒玩具象命名的。
  • Hadoop的成长过程
  • Lucene–>Nutch—>Hadoop
  • 总结起来,Hadoop起源于Google的三大论文
  • GFS:Google的分布式文件系统Google File System
  • MapReduce:Google的MapReduce开源分布式并行计算框架
  • BigTable:一个大型的分布式数据库
  • 演变关系
  • GFS—->HDFS
  • Google MapReduce—->Hadoop MapReduce
  • BigTable—->HBase

4.Hadoop的四大特性(优点)

  • 1.扩容能力(Scalable):Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可用方便的扩展到数以千计个节点中。
  • 2.成本低(Economical):Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低。
  • 3.高效率(Efficient):通过并发数据,Hadoop可以在节点之间动态并行的移动数据,使得速度非常快。
  • 4.可靠性(Rellable):能自动维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。所以Hadoop的按位存储和处理数据的能力值得人们信赖

 

实验完成图

 

转载于:https://www.cnblogs.com/FreyjaFs/p/10852973.html

你可能感兴趣的文章
字符串的查找删除
查看>>
NOI2018垫底记
查看>>
快速切题 poj 1002 487-3279 按规则处理 模拟 难度:0
查看>>
Codeforces Round #277 (Div. 2)
查看>>
【更新】智能手机批量添加联系人
查看>>
NYOJ-128前缀式计算
查看>>
淡定,啊。数据唯一性
查看>>
深入理解 JavaScript 事件循环(一)— event loop
查看>>
Hive(7)-基本查询语句
查看>>
注意java的对象引用
查看>>
C++ 面向对象 类成员函数this指针
查看>>
NSPredicate的使用,超级强大
查看>>
自动分割mp3等音频视频文件的脚本
查看>>
判断字符串是否为空的注意事项
查看>>
布兰诗歌
查看>>
js编码
查看>>
Pycharm Error loading package list:Status: 403错误解决方法
查看>>
steps/train_sat.sh
查看>>
转:Linux设备树(Device Tree)机制
查看>>
iOS 组件化
查看>>