1、搭建Hadoop集群,一個月6T的數量需要幾台伺服器?
最好是兩個做抄成HA。
2、hadoop集群搭建在阿里雲伺服器上 雲伺服器配置要求是多少
?
3、hadoop 集群 和 hadoop 分布式 怎麼理解啊
hadoop集群指的是一復群機器在制一起提供一個hadoop的集群的服務。
hadoop分布式指的是hadoop支持任務分布式運行,因為有hadoop集群提供服務,所以hadoop將任務分發到集群的多台機器運行,所以叫做分布式。
一個是伺服器架構,一個是任務運行架構。
4、如何為Hadoop集群配置合適的硬體
您好,很高興為您解答。
在過去,大數據處理主要是採用標准化的刀片式伺服器和存儲區域網路(SAN)來滿足網格和處理密集型工作負載。然而隨著數據量和用戶數的大幅增長,基礎設施的需求已經發生變化,硬體廠商必須建立創新體系,來滿足大數據對包括存儲刀片,SAS(串列連接SCSI)開關,外部SATA陣列和更大容量的機架單元的需求。即尋求一種新的方法來存儲和處理復雜的數據,Hadoop正是基於這樣的目的應運而生的。Hadoop的數據在集群上均衡分布,並通過復制副本來確保數據的可靠性和容錯性。因為數據和對數據處理的操作都是分布在伺服器上,處理指令就可以直接地發送到存儲數據的機器。這樣一個集群的每個伺服器器上都需要存儲和處理數據,因此必須對Hadoop集群的每個節點進行配置,以滿足數據存儲和處理要求。
Hadoop框架中最核心的設計是為海量數據提供存儲的HDFS和對數據進行計算的MapRece。MapRece的作業主要包括從磁碟或從網路讀取數據,即IO密集工作,或者是計算數據,即CPU密集工作。Hadoop集群的整體性能取決於CPU、內存、網路以及存儲之間的性能平衡。因此運營團隊在選擇機器配置時要針對不同的工作節點選擇合適硬體類型。一個基本的Hadoop集群中的節點主要有:Namenode負責協調集群中的數據存儲,DataNode存儲被拆分的數據塊,Jobtracker協調數據計算任務,最後的節點類型是Secondarynamenode,幫助NameNode收集文件系統運行的狀態信息。
在集群中,大部分的機器設備是作為Datanode和TaskTracker工作的。Datanode/TaskTracker的硬體規格可以採用以下方案:
4個磁碟驅動器(單盤1-2T),支持JBOD
2個4核CPU,至少2-2.5GHz
16-24GB內存
千兆乙太網
Namenode提供整個HDFS文件系統的namespace管理,塊管理等所有服務,因此需要更多的RAM,與集群中的數據塊數量相對應,並且需要優化RAM的內存通道帶寬,採用雙通道或三通道以上內存。硬體規格可以採用以下方案:
8-12個磁碟驅動器(單盤1-2T)
2個4核/8核CPU
16-72GB內存
千兆/萬兆乙太網
Secondarynamenode在小型集群中可以和Namenode共用一台機器,較大的群集可以採用與Namenode相同的硬體。考慮到關鍵節點的容錯性,建議客戶購買加固的伺服器來運行的Namenodes和Jobtrackers,配有冗餘電源和企業級RAID磁碟。最好是有一個備用機,當 namenode或jobtracker 其中之一突然發生故障時可以替代使用。
目前市場上的硬體平台滿足Datanode/TaskTracker節點配置需求的很多,,據了解深耕網路安全硬體平台多年的立華科技瞄準了Hadoop的發展前景,適時推出了專門針對NameNode的設備----雙路至強處理器搭載12塊硬碟的FX-3411,將計算與存儲完美融合,四通道內存的最大容量可達到256GB,完全滿足NameNode對於一個大的內存模型和沉重的參考數據緩存組合的需求。
同時在網路方面,FX-3411支持的2個PCI-E*8的網路擴展,網路吞吐達到80Gbps,更是遠遠滿足節點對千兆乙太網或萬兆乙太網的需求。此外針對Datanode/TaskTracker等節點的配置需求,立華科技不僅推出了可支持單路至強E38核處理器和4塊硬碟的標准品FX-3210,還有可以全面客制化的解決方案,以滿足客戶的不同需求。
Hadoop集群往往需要運行幾十,幾百或上千個節點,構建匹配其工作負載的硬體,可以為一個運營團隊節省可觀的成本,因此,需要精心的策劃和慎重的選擇。
如若滿意,請點擊右側【採納答案】,如若還有問題,請點擊【追問】
希望我的回答對您有所幫助,望採納!
~ O(∩_∩)O~
5、搭建Hadoop集群,一個月6T的數量需要幾台伺服器
最好是兩個做成HA
關於硬碟:
6T的數據容量,看你副本數量設置是多少,一般默認為3,那麼僅這些就需要18T硬碟,稍微大一點20T吧;這僅僅是HDFS存儲;(這里我說的是一個月的,你數據保存幾個月,就乘幾倍)
如果你集群上面要跑計算,MR計算出來的數據要保存HDFS的,所以,還是要根據你的結果數據來做判斷,大小就看你計算任務了.
一般是這樣計算硬碟大小
(原始數據+中間數據+結果數據)*副本數量=總硬碟大小
關於內存:
namenode不用說了,主要就是用內存保存block和node之間對應關系的,也是要根據數據大小計算的,6T/Block大小(默認為128M)=有多少block-->M個
一個block佔多少內存: 保守地設置每一百萬數據塊需要1000MB內存
namenode總內存(兆M)=M*1000MB/100萬
datanode的內存: 一般問題不大,一般都是用於mr的計算,這個東西根據你性能的需要設置
關於多少台機器?
根據Task任務的數量和你的性能指標來做決定
一個Block對應一個Mapper任務,上面算出來M個Block了,mapper任務也是那麼多
實際測試一下,一定數據量在x台機器上運行時間,根據你的指標去評定要多少台機器
hadoop集群的性能和節點個數近似成正向關系
6、想搭建一個hadoop集群來測試,現在有一台伺服器可以使用,伺服器有4個cpu,現在想把它虛擬成4個節點。
你說的是偽分布式?單台模擬多台伺服器?
看一下這個鏈接部內署,應該容有用
http://blog.csdn.net/tobeandnottobe/article/details/6670297
7、"[簡答題]為什麼我們在搭建Hadoop集群伺服器修改主機名稱的時候不用hostname?
感覺不太對吧??應該是使用hostname吧,不用IP,這樣是為了方便維護
8、Hadoop 集群中的伺服器 是誰提供的?
自己搞伺服器 也可以去租 租的也貴啊
一台電腦做hadoop只能偽分布式
分布式至少2台
9、hadoop集群實際應用搭建用到的伺服器哪種比較好,塔式的、機架式還是刀片的?
IBM 新出的PowerLinux 很適合應用伺服器。性價比很高。可以考慮。
10、hadoop集群有3台伺服器為什麼另外2個沒有datamanager
配 置 Zookeeper 接受客戶端(這里所說的客戶端不是用戶連接 Zookeeper伺服器的客戶端,而是 Zookeeper 伺服器集群中連專接到 Leader 的 Follower 伺服器)初始化屬連接時最長能忍受多少個心跳時間間隔數。
當已經超過 10 個心跳的時間(也就是 tickTime)長度後 Zookeeper 伺服器還沒有收到客戶端的返回信息,那麼表明這個客戶端連接失敗。
總的時間長度就是 5*2000=10 秒。