1、想搭建一个hadoop集群来测试,现在有一台服务器可以使用,服务器有4个cpu,现在想把它虚拟成4个节点。
你说的是伪分布式?单台模拟多台服务器?
看一下这个链接部内署,应该容有用
http://blog.csdn.net/tobeandnottobe/article/details/6670297
2、hadoop 集群 和 hadoop 分布式 怎么理解啊
hadoop集群指的是一复群机器在制一起提供一个hadoop的集群的服务。
hadoop分布式指的是hadoop支持任务分布式运行,因为有hadoop集群提供服务,所以hadoop将任务分发到集群的多台机器运行,所以叫做分布式。
一个是服务器架构,一个是任务运行架构。
3、怎么搭建Hadoop集群?
可以参考这个文章
网页链接
写的非常详细
4、搭建Hadoop集群,一个月6T的数量需要几台服务器
最好是两个做成HA
关于硬盘:
6T的数据容量,看你副本数量设置是多少,一般默认为3,那么仅这些就需要18T硬盘,稍微大一点20T吧;这仅仅是HDFS存储;(这里我说的是一个月的,你数据保存几个月,就乘几倍)
如果你集群上面要跑计算,MR计算出来的数据要保存HDFS的,所以,还是要根据你的结果数据来做判断,大小就看你计算任务了.
一般是这样计算硬盘大小
(原始数据+中间数据+结果数据)*副本数量=总硬盘大小
关于内存:
namenode不用说了,主要就是用内存保存block和node之间对应关系的,也是要根据数据大小计算的,6T/Block大小(默认为128M)=有多少block-->M个
一个block占多少内存: 保守地设置每一百万数据块需要1000MB内存
namenode总内存(兆M)=M*1000MB/100万
datanode的内存: 一般问题不大,一般都是用于mr的计算,这个东西根据你性能的需要设置
关于多少台机器?
根据Task任务的数量和你的性能指标来做决定
一个Block对应一个Mapper任务,上面算出来M个Block了,mapper任务也是那么多
实际测试一下,一定数据量在x台机器上运行时间,根据你的指标去评定要多少台机器
hadoop集群的性能和节点个数近似成正向关系
5、一个hadoop集群最多可有多少台机器
这个要看版本和服务器性能,开源的一代的master理论能带1千多台,二代有自动平衡,不知道能不能带动两千以上,还是要看性能和网络。
淘宝自己建的能带8000以上。
6、hadoop 怎么查看集群运行情况
使用hadoop dfsadmin -report命令查看集群运行,结果全为0结果如下:
[java] view plain copy
[hadoop@mini1 hadoop-2.4.1]$ hadoop dfsadmin -report
DEPRECATED: Use of this script to execute hdfs command is deprecated.
Instead use the hdfs command for it.
Configured Capacity: 0 (0 B)
Present Capacity: 0 (0 B)
DFS Remaining: 0 (0 B)
DFS Used: 0 (0 B)
DFS Used%: NaN%
Under replicated blocks: 0
Blocks with corrupt replicas: 0
Missing blocks: 0
1 stop-dfs.sh
2 start-dfs.sh
3 hadoop dfsadmin -report
运行结果如下
[java] view plain copy
[hadoop@mini1 ~]$ hdfs dfsadmin -report
Configured Capacity: 7967756288 (7.42 GB)
Present Capacity: 5630824448 (5.24 GB)
DFS Remaining: 5630799872 (5.24 GB)
DFS Used: 24576 (24 KB)
DFS Used%: 0.00%
Under replicated blocks: 0
Blocks with corrupt replicas: 0
Missing blocks: 0
7、Hadoop 集群中的服务器 是谁提供的?
自己搞服务器 也可以去租 租的也贵啊
一台电脑做hadoop只能伪分布式
分布式至少2台
8、如何部署hadoop集群
根据我们目前能够拿到的文档,可以认为云内的节点越在物理上接近,越能获得更内好的性能。根据经验,容网络延时越小,性能越好。
为了减少背景流量,我们为这个云创建了一个虚拟专用网。另外,还为应用服务器们创建了一个子网,作为访问云的入口点。
这个虚拟专用网的预计时延大约是1-2毫秒。这样一来,物理临近性就不再是一个问题,我们应该通过环境测试来验证这一点。
9、搭建Hadoop集群,一个月6T的数量需要几台服务器?
最好是两个做抄成HA。