核心内容摘要
无需绘画基础!yz-bijini-cosplay帮你设计原创Cosplay造型
文章目录
概述
简介
Hadoop 优势
架构
Hadoop组成
HDFS
YARN
MapReduce
HDFS、YARN、MapReduce三者关系
大数据技术生态体系
概述
简介Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
主要解决海量数据的存储和海量数据的分析计算问题。
广义上来说Hadoop通常是指一个更广泛的概念——Hadoop生态圈。
Hadoop 优势高可靠性Hadoop底层维护多个数据副本所以即使Hadoop某个计算元素或存储出现故障也不会导致数据的丢失。
高扩展性在集群间分配任务数据可方便的扩展数以千计的节点。
高效性在MapReduce的思想下Hadoop是并行工作的以加快任务处理速度。
高容错性能够自动将失败的任务重新分配。
架构
Hadoop组成
HDFSHadoop Distributed File System简称HDFS是一个分布式文件系统。
nn就是Master它是一个主管、管理者。
1管理HDFS的名称空间2配置副本策略3管理数据块Block映射信息4处理客户端读写请求。
2DataNode就是Slave。
NameNode下达命令DataNode执行实际的操作。
1存储实际的数据块2执行数据块的读/写操作。
3Client就是客户端。
1文件切分。
文件上传HDFS的时候Client将文件切分成一个一个的Block然后进行上传2与NameNode交互获取文件的位置信息3与DataNode交互读取或者写入数据4Client提供一些命令来管理HDFS比如NameNode格式化5Client可以通过一些命令来访问HDFS比如对HDFS增删查改操作4Secondary NameNode并非NameNode的热备。
当NameNode挂掉的时候它并不能马上替换NameNode并提供服务。
1辅助NameNode分担其工作量比如定期合并Fsimage和Edits并推送给NameNode 2在紧急情况下可辅助恢复NameNode。
YARNYet Another Resource Negotiator简称YARN 另一种资源协调者是Hadoop的资源管理器。
MapReduceMapReduce将计算过程分为两个阶段Map和Reduce。
1Map阶段并行处理输入数据2Reduce阶段对Map阶段的结果进行汇总