[转]在Ubuntu 12.04下单机Hadoop的安装配置 -

gxl_ct001

浏览: 468807 次
性别:
来自: 北京

最近访客更多访客>>

suxiongwen

刘金剑

chenweiy5120

bwlfhu

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

[转]在Ubuntu 12.04下单机Hadoop的安装配置

博客分类：

Hadoop

hadoop ubuntu ssh 虚拟机

刚开始学习Hadoop，看到这篇文章不错，按文章里的步骤安装调试成功，其中有些地方有改动。

一.安装ubuntu

在Win 7 上安装 Virtualbox 下的 64位的Ubuntu12.04 虚拟机。

二. 在Ubuntu下创建hadoop用户组和用户;

1. 创建hadoop用户组;

1. $ sudo addgroup hadoop

记下这里为 hadoop 用户设置的密码，后面使用 hadoop 用户登录时需要用到。如图：

2. 创建hadoop用户;

2. $ sudo adduser -ingroup hadoop hadoop

如图：

3. 给hadoop用户添加权限，打开/etc/sudoers文件;

3. $ sudo vi /etc/sudoers

给hadoop用户赋予root用户同样的权限。

在root ALL=(ALL:ALL) ALL下添加如下内容：

hadoop ALL=(ALL:ALL) ALL

如图：

三. 在Ubuntu下安装JDK

有两种 jdk 可以选择： openjdk 和 sun-jdk，原文中作者推荐使用 sun-jdk。

1.安装 openjdk 使用如下命令执行即可：(推荐这一步只参考，不安装)

4. $ sudo apt-get install openjdk-6-jre

如图：

这里需要说明：我就是在这里没有太注意，后面费了点事情。

linux下的java有两种一个是openjdk一个sun的。因为一些原因，Sun Java 无法从 Ubuntu 的软件库里面取得,取而代之的是 OpenJDK，不过 OpenJDK 跑某些程式会出现问题所以还是需要 Sun Java。

2. 下面说说在 Ubuntu 12.04 安装 Sun Java 的方法：

(1) 首先删除掉已经安装的openjdk

5. $ sudo apt-get purge openjdk*

(2) 添加 repository

6. $ sudo apt-add-repository ppa:flexiondotorg/java

(3) 更新源（一定要执行这个步骤啊！）

7. $ sudo apt-get update

如果更新比较慢，在unbuntu软件中心更新源，操作方面是编辑--源，使用自动测试寻找最快的源，我开始是使用的这个，给我找的一个源后来不稳定，我手工切换到科技大学的源（前面也是这个源稳定啊）。

(4) 安装 jdk，jre， plugin

8. $ sudo apt-get install sun-java6-jre sun-java6-jdk sun-java6-plugin

这一步骤大概花费一点时间，下载几十M的软件，我是在这步就执行成功的，如果执行不成功，还可以使用下面的办法：（我没有使用下面的命令安装，只列在这里共参考）。

9.
$ sudo add-apt-repository "deb http://archive.canonical.com/ubuntu maverick partner"
$ sudo apt-get install python-software-properties
$ sudo apt-get update
$ sudo apt-get install sun-java*
$ sudo apt-get install openjdk-6-jdk openjdk-6-jdk gcj-4.6-jdk ecj default-jdk

(5) 配置JAVA环境变量:

10. $ sudo vi /etc/environment

在其中添加如下两行：

JAVA_HOME=/usr/lib/jvm/java-6-sun
CLASSPATH=.:/usr/lib/jvm/java-6-sun/lib

(6) java -version查看不出错说明，成功。

我之前执行的是openjdk后来才切换的sun-java6,当然现在有7了。

四. 修改机器名（这步骤可以省略）

每当ubuntu安装成功时，我们的机器名都默认为：ubuntu ，但为了以后集群中能够容易分辨各台服务器，需要给每台机器取个不同的名字。机器名由 /etc/hostname文件决定。

1. 打开/etc/hostname文件;

11. $  sudo gedit /etc/hostname

2. 将/etc/hostname文件中的ubuntu改为你想取的机器名。这里我取"dubin-ubuntu"。 重启系统后才会生效。

五. 安装ssh服务

这里的ssh不是指三大框架:spring,struts,hibernate，而是一种远程登录协议。ssh可以实现远程登录和管理，具体可以参考其他相关资料。

ubuntu一般只是默认安装了 ssh-agent, 可以用如下命令查看：

12. $ sudo ps -ef | grep ssh

如果只有 ssh-agent 就需要安装openssh-server了。

安装openssh-server了

13. $ sudo apt-get install ssh openssh-server

这时假设您已经安装好了ssh，您就可以进行第六步了哦~

六、建立ssh无密码登录本机

首先要转换成hadoop用户，执行以下命令：

14. $ sudo su - hadoop

输入创建 hadoop 用户时设置的密码。

如图：

ssh生成密钥有rsa和dsa两种生成方式，默认情况下采用rsa方式。

1. 创建ssh-key，，这里我们采用rsa方式;

15. $ ssh-keygen -t rsa -P ""

原文的评论里有提问说这一步不成功的，请注意， ssh-kengen 是用连字符连着的，千万不要分开。

问题如下：

冰仔写道

按照您的步驟執行的過程中
我在ssh -keygen -t rsa -P ""這邊發生的點小狀況輸入之後終端機顯示Bad escape character "ygen"
請問是哪邊出了問題呢?

（红字部分就是问题所在，他将 ssh-keygen 分开了。）

如图：

（注：回车后会在~/.ssh/下生成两个文件：id_rsa和id_rsa.pub这两个文件是成对出现的）

2. 创建授权文件authorized_keys的

进入~/.ssh/目录下，发现开始是没有authorized_keys文件的，可以使用以下两种方法：

(1) 将id_rsa.pub追加到authorized_keys授权文件中;

16.
$ cd ~/.ssh
$ cat id_rsa.pub >> authorized_keys

如图：

(2) 复制 id_rsa.pub 为 authorized_keys

17. $ cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

（完成后就可以无密码登录本机了。）

3. 登录localhost;

18. $ ssh localhost

如图：

( 注：当ssh远程登录到其它机器后，现在你控制的是远程的机器，需要执行退出命令才能重新控制本地主机。)

4. 执行退出命令;

$ exit

七. 安装hadoop

我们采用的hadoop版本是：hadoop-0.20.203（http://www.apache.org/dyn/closer.cgi/hadoop/common/），因为该版本比较稳定。最新的alpha版本已经很高，但是还是建议采用稳定的版本。我是在apache站点直接下载的。

原作者写的那个hadoop-0.20.203 版本已经没有了，改用 hadoop-1.2.1.tar.gz

1. 假设hadoop-1.2.1.tar.gz在桌面，将它复制到安装目录 /usr/local/下；

19. $ sudo cp hadoop-1.21.tar.gz /usr/local/

2. 解压hadoop-1.2.1.tar.gz；

20.  $ cd /usr/local
     $ sudo tar -zxvf hadoop-1.21.tar.gz

3. 将解压出的文件夹改名为hadoop;

21. $ sudo mv hadoop-1.2.1 hadoop

4. 将该hadoop文件夹的属主用户设为hadoop，

22. $ sudo chown -R hadoop:hadoop hadoop

5. 打开hadoop/conf/hadoop-env.sh文件;

23. $ sudo gedit hadoop/conf/hadoop-env.sh

6. 配置conf/hadoop-env.sh（找到#export JAVA_HOME=...,去掉#，然后加上本机jdk的路径）;

export JAVA_HOME=/usr/lib/jvm/java-6-sun

7. 打开conf/core-site.xml文件;

24. $ sudo gedit hadoop/conf/core-site.xml

编辑如下：<property>后面需要手工添加

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
                                                                                                    
<configuration>
   <property>  
        <name>fs.default.name</name>  
        <value>hdfs://localhost:9000</value>   
   </property>  
</configuration>

8. 打开conf/mapred-site.xml文件;

25. $ sudo gedit hadoop/conf/mapred-site.xml

编辑如下<property>后面需要手工添加：

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
 <!-- Put site-specific property overrides in this file. -->
  <configuration>  
       <property>   
             <name>mapred.job.tracker</name>  
             <value>localhost:9001</value>   
       </property>  
  </configuration>

9. 打开conf/hdfs-site.xml文件;

26. $ sudo gedit hadoop/conf/hdfs-site.xml

编辑如下：

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
 <!-- Put site-specific property overrides in this file. -->
<configuration>
      <property>
            <name>dfs.name.dir</name>
            <value>/usr/local/hadoop/datalog1,/usr/local/hadoop/datalog2</value>
      </property>

      <property>
            <name>dfs.data.dir</name>
            <value>/usr/local/hadoop/data1,/usr/local/hadoop/data2</value>
      </property>

     <property>
            <name>dfs.replication</name>
            <value>2</value>
      </property>
</configuration>

10. 打开conf/masters文件，添加作为secondarynamenode的主机名，作为单机版环境，这里只需填写 localhost 就Ok了。

27. $ sudo gedit hadoop/conf/masters

11. 打开conf/slaves文件，添加作为slave的主机名，一行一个。作为单机版，这里也只需填写 localhost就Ok了。

28. $ sudo gedit hadoop/conf/slaves

        10.11我自己没敲，默认就是localhost，千万别修改为127.0.0.1 localhost虽然正式的多台机器是这样的写法，但是单台机器不需要前面的ip地址，否则会报错

八. 在单机上运行hadoop

1. 进入hadoop目录下，格式化hdfs文件系统，初次运行hadoop时一定要有该操作，

29.
$ cd /usr/local/hadoop/
$ bin/hadoop namenode -format

2. 当你看到下图时，就说明你的hdfs文件系统格式化成功了。

3. 启动bin/start-all.sh

29. $ bin/start-all.sh

4. 检测hadoop是否启动成功

30. $ sudo jps

      千万要注意这里，我使用这个命令只能看到jps自己的进程，纠结了很长时间，忽然发现得用 sudo jps果然能出现6个进程，坑爹啊，大家千万要注意。

如果有Namenode，SecondaryNameNode，TaskTracker，DataNode，JobTracker五个进程，就说明你的hadoop单机版环境配置好了！

如下图：

然后可以通过firefox浏览器查看，使用http://localhost:50030/

对，你没有看错不是我们配置的core-site的9000的端口，也不是9001的端口，是50030，我也不知道为什么，有谁知道一下。

以下是的回答：

localhost：9000 是你的namenode的地址，比如本机下访问HDFS中的文件可以用
hdfs://localhost:9000/your_path 这种格式。
namenode并不负责文件的具体存储，但是它存储文件的权限，日期等属性信息和属于哪些block
以及这些block对应的 DataNode等信息。也就是说localhost:9000指定的是namenode服务器的地址，
你访问hdfs的文件，必须告诉namenode 服务器，然后由它给你处理返回文件，具体的细节是透明的。
而 http://localhost:50030只是一个jobtracker的web访问接口，为的是方便用户查看相关信息。
类似的还有：
http://localhost:50070/ – web UI of the NameNode daemon
http://localhost:50030/ – web UI of the JobTracker daemon
http://localhost:50060/ – web UI of the TaskTracker daemon

如果看到下面激动人心的画面，就说明你成功了。

(请您对文章做出评价)

« 上一篇：hadoop学习---2.cygwin及sshd安装配置
» 下一篇：sql中的text字段如何导入oracle

原文网址：http://www.cnblogs.com/tippoint/archive/2012/10/23/2735532.html

#4楼 2013-03-04 21:53 Bloguy

感谢lz详细的教程，本来安装的是1.0.4版本的，在配置过程中虽然遇到了点小麻烦，但现已顺利解决：用jps命令查看namenode没有启动，去网上搜了下,重新执行hadoop namenode -format（关键），最后启动hadoop，成功。
不过后来又出现了类似问题，察看日志文件发现是权限问题，由于我用过sudo执行了hadoop命令，然后生成的一些文件就是root权限的，后来我用我哦 user用户执行hadoop，导致有的文件没有写的权限，产生错误，解决办法：sudo chown -R YOUR_USER:YOUR_GROUP YOUR_HADOOP_HOME_PATH更改hadoop文件夹下所有文件的权限为当前执行hadoop命令的用户的权限。

#12楼 2013-03-18 22:11 西直门庆

多谢，不过在hadoop namenode -format出来了点问题
Shutting down NameNode at java.net.UnknownHostException:
修改下主机名就好了

支持(0)反对(0)

#14楼 2013-04-03 01:30 蜗牛向前冲

按作者的步骤来做，配置成功。
赞~~~