导航:首页 > IDC知识 > hadoop服务器集群

hadoop服务器集群

发布时间:2020-11-21 17:02:59

1、想搭建一个hadoop集群来测试,现在有一台服务器可以使用,服务器有4个cpu,现在想把它虚拟成4个节点。

你说的是伪分布式?单台模拟多台服务器?
看一下这个链接部内署,应该容有用
http://blog.csdn.net/tobeandnottobe/article/details/6670297

2、hadoop 集群 和 hadoop 分布式 怎么理解啊

hadoop集群指的是一复群机器在制一起提供一个hadoop的集群的服务。
hadoop分布式指的是hadoop支持任务分布式运行,因为有hadoop集群提供服务,所以hadoop将任务分发到集群的多台机器运行,所以叫做分布式。
一个是服务器架构,一个是任务运行架构。

3、怎么搭建Hadoop集群?

可以参考这个文章

网页链接

写的非常详细

4、搭建Hadoop集群,一个月6T的数量需要几台服务器

最好是两个做成HA
关于硬盘:
6T的数据容量,看你副本数量设置是多少,一般默认为3,那么仅这些就需要18T硬盘,稍微大一点20T吧;这仅仅是HDFS存储;(这里我说的是一个月的,你数据保存几个月,就乘几倍)
如果你集群上面要跑计算,MR计算出来的数据要保存HDFS的,所以,还是要根据你的结果数据来做判断,大小就看你计算任务了.
一般是这样计算硬盘大小

(原始数据+中间数据+结果数据)*副本数量=总硬盘大小

关于内存:
namenode不用说了,主要就是用内存保存block和node之间对应关系的,也是要根据数据大小计算的,6T/Block大小(默认为128M)=有多少block-->M个

一个block占多少内存: 保守地设置每一百万数据块需要1000MB内存
namenode总内存(兆M)=M*1000MB/100万

datanode的内存: 一般问题不大,一般都是用于mr的计算,这个东西根据你性能的需要设置

关于多少台机器?
根据Task任务的数量和你的性能指标来做决定

一个Block对应一个Mapper任务,上面算出来M个Block了,mapper任务也是那么多

实际测试一下,一定数据量在x台机器上运行时间,根据你的指标去评定要多少台机器

hadoop集群的性能和节点个数近似成正向关系

5、一个hadoop集群最多可有多少台机器

这个要看版本和服务器性能,开源的一代的master理论能带1千多台,二代有自动平衡,不知道能不能带动两千以上,还是要看性能和网络。
淘宝自己建的能带8000以上。

6、hadoop 怎么查看集群运行情况

使用hadoop dfsadmin -report命令查看集群运行,结果全为0结果如下:

[java] view plain copy

[hadoop@mini1 hadoop-2.4.1]$ hadoop dfsadmin -report  

DEPRECATED: Use of this script to execute hdfs command is deprecated.  

Instead use the hdfs command for it.  

Configured Capacity: 0 (0 B)  

Present Capacity: 0 (0 B)  

DFS Remaining: 0 (0 B)  

DFS Used: 0 (0 B)  

DFS Used%: NaN%  

Under replicated blocks: 0  

Blocks with corrupt replicas: 0  

Missing blocks: 0  


个错误是因为多次hdfs namenode -format导致namespaceID不同,删掉datanode配置的dfs.data.dir目录后然后执行以下步骤。

1 stop-dfs.sh

2 start-dfs.sh

3 hadoop dfsadmin -report

运行结果如下

[java] view plain copy

[hadoop@mini1 ~]$ hdfs dfsadmin -report    

Configured Capacity: 7967756288 (7.42 GB)  

Present Capacity: 5630824448 (5.24 GB)  

DFS Remaining: 5630799872 (5.24 GB)  

DFS Used: 24576 (24 KB)  

DFS Used%: 0.00%  

Under replicated blocks: 0  

Blocks with corrupt replicas: 0  

Missing blocks: 0  

7、Hadoop 集群中的服务器 是谁提供的?

自己搞服务器 也可以去租 租的也贵啊
一台电脑做hadoop只能伪分布式
分布式至少2台

8、如何部署hadoop集群

根据我们目前能够拿到的文档,可以认为云内的节点越在物理上接近,越能获得更内好的性能。根据经验,容网络延时越小,性能越好。
为了减少背景流量,我们为这个云创建了一个虚拟专用网。另外,还为应用服务器们创建了一个子网,作为访问云的入口点。
这个虚拟专用网的预计时延大约是1-2毫秒。这样一来,物理临近性就不再是一个问题,我们应该通过环境测试来验证这一点。

9、搭建Hadoop集群,一个月6T的数量需要几台服务器?

最好是两个做抄成HA。

与hadoop服务器集群相关的知识