導航:首頁 > IDC知識 > hadoop伺服器集群

hadoop伺服器集群

發布時間:2020-11-21 17:02:59

1、想搭建一個hadoop集群來測試,現在有一台伺服器可以使用,伺服器有4個cpu,現在想把它虛擬成4個節點。

你說的是偽分布式?單台模擬多台伺服器?
看一下這個鏈接部內署,應該容有用
http://blog.csdn.net/tobeandnottobe/article/details/6670297

2、hadoop 集群 和 hadoop 分布式 怎麼理解啊

hadoop集群指的是一復群機器在制一起提供一個hadoop的集群的服務。
hadoop分布式指的是hadoop支持任務分布式運行,因為有hadoop集群提供服務,所以hadoop將任務分發到集群的多台機器運行,所以叫做分布式。
一個是伺服器架構,一個是任務運行架構。

3、怎麼搭建Hadoop集群?

可以參考這個文章

網頁鏈接

寫的非常詳細

4、搭建Hadoop集群,一個月6T的數量需要幾台伺服器

最好是兩個做成HA
關於硬碟:
6T的數據容量,看你副本數量設置是多少,一般默認為3,那麼僅這些就需要18T硬碟,稍微大一點20T吧;這僅僅是HDFS存儲;(這里我說的是一個月的,你數據保存幾個月,就乘幾倍)
如果你集群上面要跑計算,MR計算出來的數據要保存HDFS的,所以,還是要根據你的結果數據來做判斷,大小就看你計算任務了.
一般是這樣計算硬碟大小

(原始數據+中間數據+結果數據)*副本數量=總硬碟大小

關於內存:
namenode不用說了,主要就是用內存保存block和node之間對應關系的,也是要根據數據大小計算的,6T/Block大小(默認為128M)=有多少block-->M個

一個block佔多少內存: 保守地設置每一百萬數據塊需要1000MB內存
namenode總內存(兆M)=M*1000MB/100萬

datanode的內存: 一般問題不大,一般都是用於mr的計算,這個東西根據你性能的需要設置

關於多少台機器?
根據Task任務的數量和你的性能指標來做決定

一個Block對應一個Mapper任務,上面算出來M個Block了,mapper任務也是那麼多

實際測試一下,一定數據量在x台機器上運行時間,根據你的指標去評定要多少台機器

hadoop集群的性能和節點個數近似成正向關系

5、一個hadoop集群最多可有多少台機器

這個要看版本和伺服器性能,開源的一代的master理論能帶1千多台,二代有自動平衡,不知道能不能帶動兩千以上,還是要看性能和網路。
淘寶自己建的能帶8000以上。

6、hadoop 怎麼查看集群運行情況

使用hadoop dfsadmin -report命令查看集群運行,結果全為0結果如下:

[java] view plain copy

[hadoop@mini1 hadoop-2.4.1]$ hadoop dfsadmin -report  

DEPRECATED: Use of this script to execute hdfs command is deprecated.  

Instead use the hdfs command for it.  

Configured Capacity: 0 (0 B)  

Present Capacity: 0 (0 B)  

DFS Remaining: 0 (0 B)  

DFS Used: 0 (0 B)  

DFS Used%: NaN%  

Under replicated blocks: 0  

Blocks with corrupt replicas: 0  

Missing blocks: 0  


個錯誤是因為多次hdfs namenode -format導致namespaceID不同,刪掉datanode配置的dfs.data.dir目錄後然後執行以下步驟。

1 stop-dfs.sh

2 start-dfs.sh

3 hadoop dfsadmin -report

運行結果如下

[java] view plain copy

[hadoop@mini1 ~]$ hdfs dfsadmin -report    

Configured Capacity: 7967756288 (7.42 GB)  

Present Capacity: 5630824448 (5.24 GB)  

DFS Remaining: 5630799872 (5.24 GB)  

DFS Used: 24576 (24 KB)  

DFS Used%: 0.00%  

Under replicated blocks: 0  

Blocks with corrupt replicas: 0  

Missing blocks: 0  

7、Hadoop 集群中的伺服器 是誰提供的?

自己搞伺服器 也可以去租 租的也貴啊
一台電腦做hadoop只能偽分布式
分布式至少2台

8、如何部署hadoop集群

根據我們目前能夠拿到的文檔,可以認為雲內的節點越在物理上接近,越能獲得更內好的性能。根據經驗,容網路延時越小,性能越好。
為了減少背景流量,我們為這個雲創建了一個虛擬專用網。另外,還為應用伺服器們創建了一個子網,作為訪問雲的入口點。
這個虛擬專用網的預計時延大約是1-2毫秒。這樣一來,物理臨近性就不再是一個問題,我們應該通過環境測試來驗證這一點。

9、搭建Hadoop集群,一個月6T的數量需要幾台伺服器?

最好是兩個做抄成HA。

與hadoop伺服器集群相關的知識