Hadoop组件——HDFS

1，HDFS简介HDFS（Hadoop Distributed File System）是hadoop项目的核心子项目，在大数据开发通过分布式计算对海量数据进行存储与管理。它基于流数据模式访问和处理超大文件的需求而开发，可以运行在廉价的商用服务器上，为海量数据提供了不怕故障的存储方法，进而为超大数据集的应用处理带来了很多便利。HDFS的特点：HDFS非常适合使用商业硬件进行分布式存储和分布式处理。

王小磊~

468人浏览 · 2021-09-01 13:34:39

王小磊~ · 2021-09-01 13:34:39 发布

1，HDFS简介

HDFS（Hadoop Distributed File System）是hadoop项目的核心子项目，在大数据开发通过分布式计算对海量数据进行存储与管理。它基于流数据模式访问和处理超大文件的需求而开发，可以运行在廉价的商用服务器上，为海量数据提供了不怕故障的存储方法，进而为超大数据集的应用处理带来了很多便利。

HDFS的特点：

HDFS非常适合使用商业硬件进行分布式存储和分布式处理。它具有容错性，可扩展性，并且扩展极其简单。
HDFS具有高度可配置性。大多数情况下，需要仅针对非常大的集群调整默认配置。
HDFS是Hadoop的核心框架，而Hadoop是用java编写的，因此可以运用于所有主流平台上。
支持类似shell的命令直接于HDFS交互。
HDFS内置了Web服务器，可以轻松检查集群当前的状态。

2，HDFS总体架构

HDFS是一个典型的主/从架构的分布式文件系统。一个HDFS集群由一个元素据节点（称为NameNode）和一些数据节点（称为DataNode）组成。NameNode是HDFS的主节点，是一个用来管理文件元数据（文件名称，大小，存储位置等）和处理来自客户端的文件访问请求的主服务器，DataNode是HDFS的从节点，用来管理对应节点的数据存储，及实际文件数据存储于DataNode上，而DataNode中的数据则保存在本地磁盘。

当HDFS系统启动后，NameNode上会启动一个名称为“NameNode”的进程，DataNode上会启动一个名称为“DataNode”的进程。

典型的HDFS集群部署是一台专用的计算机只运行NameNode进程，集群中的其他计算机都运行DataNode进程。HDFS架构并不排除在同一台计算机上运行多个DataNode进程，但在实际部署中很少出现这种情况

HDFS集群中单个NameNode的存在极大地简化了系统的体系结构。NameNode是HDFS元数据的仲裁者和存储库。该系统的设计方式是，用户数据永远不会流经NameNode。

现在大三，双非二本院校 大数据专业，个人原因不打算考研，准备主攻Hadoop生态系统。机器学习等大数据算法。购买了一本张伟洋老师的hadoop大数据技术开发实战，希望通过写博客记录我每天的学习成果。感兴趣的小伙伴可以一起学习，一起进步！

深开鸿技术专区

更多推荐

Stateright性能优化：对称约简技术让模型检查速度提升10倍

Stateright是一款用于分布式系统实现的模型检查工具，通过对称约简技术可显著提升模型检查速度。本文将深入探讨对称约简技术在Stateright中的应用原理及实际效果，帮助开发者快速掌握这一性能优化利器。## 什么是对称约简技术？对称约简是一种通过识别系统状态空间中的对称关系来减少模型检查工作量的技术。在分布式系统中，许多组件（如进程、节点）往往具有对称性，它们的行为在逻辑上是等价的。

深开鸿技术专区

Stanford Legion 终极指南：如何构建高性能分布式计算应用

Stanford Legion 是一个革命性的分布式并行编程系统，专为异构计算架构设计。在前100个词内，Legion 的核心关键词包括：分布式计算、并行编程、异构架构、高性能计算。这个强大的系统让开发者能够轻松构建可扩展的分布式应用程序，同时保持代码的可移植性和性能优化。🌟## 什么是 Stanford Legion？Legion 是一种**并行编程模型**，专门针对分布式异构机器设计

深开鸿技术专区

Multigres架构深度剖析：多服务协同实现PostgreSQL分布式集群

Multigres作为PostgreSQL的分布式解决方案（Vitess for Postgres），通过精心设计的多服务架构实现了PostgreSQL的水平扩展与高可用。本文将深入解析其核心组件、协同机制及技术实现，帮助开发者快速掌握这一强大工具的内部工作原理。## 🏗️ 架构设计目标：平衡兼容性与创新性Multigres的架构设计围绕三大核心目标展开，确保系统既强大又易用：###