1、阿里云云服务器linux可以部署hadoop么
通过命令行下载 ,我下载的版本是1.2.1,版本稳定且方便学习。
[plain] view plain copy
wget http://mirror.bit.e.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz
下载完成后,将hadoop安装包转移至要安装的目录
[plain] view plain copy
mv hadoop-1.2.1.tar.gz /usr/hadoop/
cd /usr/hadoop/
解压
[plain] view plain copy
tar -zxvf hadoop-1.2.1.tar.gz
配置Hadoop
配置文件在 hadoop的conf文件夹下
首先修改 hadoop-env.sh 文件
[plain] view plain copy
vim hadoop-env.sh
找到 # export JAVA_HOME=…..
修改为 export JAVA_HOME=/usr/Java/java8
注意 // 如果忘记java的路径,可以通过命令 echo $JAVA_HOME查看
其次修改 core-site.xml 文件
其实 修改 hadoop-env.sh
[plain] view plain copy
vim hadoop-env.sh
修改内容为
[html] view plain copy
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/hadoop</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/hadoop/name</value>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://canghong:9000</value>
</property>
</configuration>
然后修改 hdfs-site.xml
[html] view plain copy
<configuration>
<property>
<name>dfs.data.dir</name>
<value>/hadoop/data</value>
</property>
</configuration>
最后修改 mapred-site.xml
[html] view plain copy
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>canghong:9001</value>
</property>
</configuration>
配置完成后,告诉系统hadoop的安装目录
[plain] view plain copy
vim ~/.bashrc
export HADOOP_HOME=/usr/hadoop/hadoop-1.2.1
在 export PATH 中 加入 HADOOP_HOME
export PATH=${JAVA_HOME}/bin:$HADOOP_HOME/bin:$PATH
测试
在命令行输入 hadoop
出现
10015 JobTracker
9670 TaskTracker
9485 DataNode
10380 Jps
9574 SecondaryNameNode
9843 NameNode
则表示成功
格式化文件系统
[plain] view plain copy
cd /usr/hadoop/hadoop-1.2.1/bin
hadoop namenode -formate
启动
启动 bin下的 start-all.sh
start-all.sh
测试
在命令行 输入 jps 查看hadoop是否正常运行
2、hadoop集群搭建在阿里云服务器上 云服务器配置要求是多少
?
3、如何配置hive访问其他服务器的hadoop
1、下载hive(http://archive.cloudera.com/cdh/testing/hive-0.3.99.1+0.tar.gz),解包把它放到目录 /usr/local/hadoop/contrib并改名为hive,改属主(chown -R hadoop:hadoop).
2、下载ant (http://labs.xiaonei.com/apache-mirror/ant/binaries/apache-ant-1.7.1-bin.tar.gz),解包并把它放置到目录/usr/local/hadoop.
3、修改文件 /etc/profile,添加如下的行:
export HADOOP_HOME=/usr/local/hadoopexport ANT_HOME=$HADOOP_HOME/apache-ant-1.7.1export PATH=$PATH:/usr/local/hadoop/bin:$JAVA_HOME/bin:$HADOOP_HOME/contrib/hive/bin:$ANT_HOME/bin
export ANT_LIB=$HADOOP_HOME/apache-ant-1.7.1/lib
export HADOOP=$HADOOP_HOME/bin/hadoop4、修改hive配置文件 /usr/local/hadoop/contrib/hive/conf/hive-default.xml,只要改一个地方,使其内容为:/usr/local/hadoop/contrib/hive/lib/hive_hwi.war。昨天我把它书写成 “hive-hwi.war”,浏览器访问,就只列出文件目录,死活都不对,唉!
5、启动hive web服务: $ hive –service hwi & .监听端口默认是9999,也可以自己到hive-default.xml定制。浏览器的访问url为 http:/hadoop:9999/hwi.
注:hive表的存放地为hdfs,默认是 /user/hive .这个路径只有通过hadoop shell才能看见(不是/usr)
4、hadoop怎么搭建web后端服务器
web应用是实时的应用。而hadoop平台是用来处理非实时数据的。 所以,通常是超大数据用hadoop处理,结果返回数据库(或hbase)中,web应用调用数据库。
5、"[简答题]为什么我们在搭建Hadoop集群服务器修改主机名称的时候不用hostname?
感觉不太对吧??应该是使用hostname吧,不用IP,这样是为了方便维护
6、hadoop服务器配置需要ssd吗
像raid 0之类的肯定是能明显提高磁盘的读写速度的。
当然 hadoop本身也是具有一定这样的能力,而且hadoop本身还有多复本。
所以说如果是为了数据安全的话,到时不太用考虑raid。
7、如何在浪潮服务器上部署hadoop
据国外媒体消息,为应对海量数据浪潮,VMware启动Serengeti开放原始码计划,便于企业在VMware vSphere虚拟化平台上快速部署与管理Apache Hadoop集群,部署虚拟化技术与分布式计算混用的基础架构。
通过Serengeti计划,VMware开放一组工具组,可在Apache 2.0网页免费下载,让企业IT人员利用指令接口(Command Line Interface,CLI)在vSphere平台建立、设定、启用与管理Hadoop集群,包括Hadoop共通组件如Apache Pig与Apache Hive等。例如,IT人员可用这些工具组设定单台虚拟计算节配置多少内存、存储与网络资源。目前VMware已和Cloudera、Greenplum、Hortonworks、IBM及MapR等Hadoop厂商合作推广Serengeti计划。
此外,VMware还为Hadoop放出新的原始码,包括HDFS(Hadoop Distributed File System)和Hadoop MapRece项目的扩展组件,可在虚拟化平台当中,将数据和计算任务分散到不同虚拟计算节点。并且VMware发布了Spring for Apache Hadoop分布式计算开发平台的更新版本,让企业开发人员整合HBase数据库、Cascading函数库及Hadoop安全功能,来开发采Hadoop技术的应用系统。
8、学习hadoop 要多少台服务器
这个要看你自己的条件了
条件好的,弄几台旧的PC,比如3台或以上,一个版nanenode两个datanode
条件一般的,就弄台好点权的机子,装2-3个虚拟机,至少也得8G内存
条件差的,就用一台机,既做namenode又做datanode,不过,这样很多效果没法验证
9、为什么我们在搭建Hadoop集群服务器修改主机名称时侯不用hostname命令修改?
应该hostname命令是临时修改,机器重启之后就不生效了
10、搭建Hadoop集群,一个月6T的数量需要几台服务器
最好是两个做成HA
关于硬盘:
6T的数据容量,看你副本数量设置是多少,一般默认为3,那么仅这些就需要18T硬盘,稍微大一点20T吧;这仅仅是HDFS存储;(这里我说的是一个月的,你数据保存几个月,就乘几倍)
如果你集群上面要跑计算,MR计算出来的数据要保存HDFS的,所以,还是要根据你的结果数据来做判断,大小就看你计算任务了.
一般是这样计算硬盘大小
(原始数据+中间数据+结果数据)*副本数量=总硬盘大小
关于内存:
namenode不用说了,主要就是用内存保存block和node之间对应关系的,也是要根据数据大小计算的,6T/Block大小(默认为128M)=有多少block-->M个
一个block占多少内存: 保守地设置每一百万数据块需要1000MB内存
namenode总内存(兆M)=M*1000MB/100万
datanode的内存: 一般问题不大,一般都是用于mr的计算,这个东西根据你性能的需要设置
关于多少台机器?
根据Task任务的数量和你的性能指标来做决定
一个Block对应一个Mapper任务,上面算出来M个Block了,mapper任务也是那么多
实际测试一下,一定数据量在x台机器上运行时间,根据你的指标去评定要多少台机器
hadoop集群的性能和节点个数近似成正向关系