1、想搭建一個hadoop集群來測試,現在有一台伺服器可以使用,伺服器有4個cpu,現在想把它虛擬成4個節點。
你說的是偽分布式?單台模擬多台伺服器?
看一下這個鏈接部內署,應該容有用
http://blog.csdn.net/tobeandnottobe/article/details/6670297
2、hadoop 集群 和 hadoop 分布式 怎麼理解啊
hadoop集群指的是一復群機器在制一起提供一個hadoop的集群的服務。
hadoop分布式指的是hadoop支持任務分布式運行,因為有hadoop集群提供服務,所以hadoop將任務分發到集群的多台機器運行,所以叫做分布式。
一個是伺服器架構,一個是任務運行架構。
3、怎麼搭建Hadoop集群?
可以參考這個文章
網頁鏈接
寫的非常詳細
4、搭建Hadoop集群,一個月6T的數量需要幾台伺服器
最好是兩個做成HA
關於硬碟:
6T的數據容量,看你副本數量設置是多少,一般默認為3,那麼僅這些就需要18T硬碟,稍微大一點20T吧;這僅僅是HDFS存儲;(這里我說的是一個月的,你數據保存幾個月,就乘幾倍)
如果你集群上面要跑計算,MR計算出來的數據要保存HDFS的,所以,還是要根據你的結果數據來做判斷,大小就看你計算任務了.
一般是這樣計算硬碟大小
(原始數據+中間數據+結果數據)*副本數量=總硬碟大小
關於內存:
namenode不用說了,主要就是用內存保存block和node之間對應關系的,也是要根據數據大小計算的,6T/Block大小(默認為128M)=有多少block-->M個
一個block佔多少內存: 保守地設置每一百萬數據塊需要1000MB內存
namenode總內存(兆M)=M*1000MB/100萬
datanode的內存: 一般問題不大,一般都是用於mr的計算,這個東西根據你性能的需要設置
關於多少台機器?
根據Task任務的數量和你的性能指標來做決定
一個Block對應一個Mapper任務,上面算出來M個Block了,mapper任務也是那麼多
實際測試一下,一定數據量在x台機器上運行時間,根據你的指標去評定要多少台機器
hadoop集群的性能和節點個數近似成正向關系
5、一個hadoop集群最多可有多少台機器
這個要看版本和伺服器性能,開源的一代的master理論能帶1千多台,二代有自動平衡,不知道能不能帶動兩千以上,還是要看性能和網路。
淘寶自己建的能帶8000以上。
6、hadoop 怎麼查看集群運行情況
使用hadoop dfsadmin -report命令查看集群運行,結果全為0結果如下:
[java] view plain copy
[hadoop@mini1 hadoop-2.4.1]$ hadoop dfsadmin -report
DEPRECATED: Use of this script to execute hdfs command is deprecated.
Instead use the hdfs command for it.
Configured Capacity: 0 (0 B)
Present Capacity: 0 (0 B)
DFS Remaining: 0 (0 B)
DFS Used: 0 (0 B)
DFS Used%: NaN%
Under replicated blocks: 0
Blocks with corrupt replicas: 0
Missing blocks: 0
1 stop-dfs.sh
2 start-dfs.sh
3 hadoop dfsadmin -report
運行結果如下
[java] view plain copy
[hadoop@mini1 ~]$ hdfs dfsadmin -report
Configured Capacity: 7967756288 (7.42 GB)
Present Capacity: 5630824448 (5.24 GB)
DFS Remaining: 5630799872 (5.24 GB)
DFS Used: 24576 (24 KB)
DFS Used%: 0.00%
Under replicated blocks: 0
Blocks with corrupt replicas: 0
Missing blocks: 0
7、Hadoop 集群中的伺服器 是誰提供的?
自己搞伺服器 也可以去租 租的也貴啊
一台電腦做hadoop只能偽分布式
分布式至少2台
8、如何部署hadoop集群
根據我們目前能夠拿到的文檔,可以認為雲內的節點越在物理上接近,越能獲得更內好的性能。根據經驗,容網路延時越小,性能越好。
為了減少背景流量,我們為這個雲創建了一個虛擬專用網。另外,還為應用伺服器們創建了一個子網,作為訪問雲的入口點。
這個虛擬專用網的預計時延大約是1-2毫秒。這樣一來,物理臨近性就不再是一個問題,我們應該通過環境測試來驗證這一點。
9、搭建Hadoop集群,一個月6T的數量需要幾台伺服器?
最好是兩個做抄成HA。