Fanxin's blog Fanxin's blog
首页
  • 建站选择
  • 博客建站
  • 博客写作
  • Java重难点知识
  • 常用框架

    • Spring-boot
  • Hadoop
  • Linux学习巩固
  • Shell学习巩固
  • 爬虫技术
  • 博客
  • 公众号
  • 视频UP主
  • 实用工具
  • 生活感悟
  • 好文摘录
  • 优秀开源
  • Oracle APEX
关于
  • 分类
  • 标签
  • 归档
GitHub (opens new window)

Fan Xin

自媒体程序员养成记
首页
  • 建站选择
  • 博客建站
  • 博客写作
  • Java重难点知识
  • 常用框架

    • Spring-boot
  • Hadoop
  • Linux学习巩固
  • Shell学习巩固
  • 爬虫技术
  • 博客
  • 公众号
  • 视频UP主
  • 实用工具
  • 生活感悟
  • 好文摘录
  • 优秀开源
  • Oracle APEX
关于
  • 分类
  • 标签
  • 归档
GitHub (opens new window)
  • Hadoop

    • Hadoop简介
  • 大数据学习
  • Hadoop
Fanxin
2021-03-08

Hadoop简介

Hadoop头图

从大数据刚兴起的那几年,我就想要去学大数据相关的知识,转眼这么多年过去了,我从Java开发一步步进阶,终于在近期的工作中接触到了Hadoop。目前在替联通做一个数据上云搬迁工作,其中自然涉及到了一定的大数据方面的知识。而我第一个接触到的大数据相关框架就是Hadoop,这里记录我对Hadoop的学习过程。

Apache Hadoop是一款支持数据密集型分布式应用程序并以 Apache 2.0许可协议 发布的开源软件框架。它是支持在商用硬件构建的大型集群上运行的应用程序。 Hadoop 是根据谷歌公司发表的 MapReduce 和 Google文件系统 的论文自行实现而成。

所有的Hadoop模块都有一个基本假设,即硬件故障是常见情况,应该由框架自动处理。

Hadoop框架透明地为应用提供可靠性和数据移动。它实现了名为MapReduce的编程范型:应用程序被分割成许多小部分,而每个部分都能在集群中的任意节点上运行或重新运行。

此外,Hadoop还提供了分布式文件系统,用以存储所有计算节点的数据,这为整个集群带来了非常高的带宽。MapReduce 和分布式文件系统的设计,使得整个框架能够自动处理节点故障。它使应用程序与成千上万的独立计算的电脑和PB级的数据连接起来。

现在普遍认为整个Apache Hadoop "平台"包括 :Hadoop内核、MapReduce、Hadoop分布式文件系统(HDFS)以及一些相关项目,有Apache Hive和Apache HBase等等。

hadoop2.0时期架构

编辑 (opens new window)
#大数据#Hadoop
上次更新: 2021/06/16, 01:26:04
最近更新
01
虚拟机中Ubuntu网卡配置
06-04
02
监测某文件夹下文件的更新并自动推送Hadoop集群
06-03
03
Vim快捷方式整理
05-24
更多文章>
Theme by Vdoing | Copyright © 2021-2021 Fan Xin | Github repo
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式