Hadoop的运行模式

Hadoop官方网站

http://hadoop.apache.org/

Hadoop运行模式

  • 本地模式:单机运行,只是用来演示一下官方案例。生产环境不用

  • 伪分布式模式:也是单机运行,但是具备Hadoop集群的所有功能,一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试,生产环境不用。

  • 完全分布式模式:多台服务器组成分布式环境。生产环境使用。

本地运行模式(官方 WordCount)

  • 创建在hadoop-3.1.3文件下面创建一个wcinput文件夹

 [root@hadoop102 hadoop-3.1.3]$ mkdir wcinput
  • 在wcinput文件下创建一个word.txt文件

 [root@hadoop102 hadoop-3.1.3]$ cd wcinput
  • 编辑word.txt文件

 [root@hadoop102 wcinput]$ vim word.txt
 hadoop
 yarn
 hadoop
 mapreduce
 atguigu
 atguigu
  • 回到 Hadoop 目录/opt/module/hadoop-3.1.3

  • 执行程序

 [root@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput wcoutput
  • 查看结果

 [root@hadoop102 hadoop-3.1.3]$ cat wcoutput/part-r-00000 
 
 看到如下结果:
 
 atguigu 2
 hadoop 2
 mapreduce   1
 yarn   1

伪分布式模式

完全分布式模式(开发重点)

  • 准备3台客户机(关闭防火墙、静态IP、主机名称)

  • 安装JDK

  • 配置环境变量

  • 安装Hadoop

  • 配置环境变量

  • 配置集群

  • 单点启动

  • 配置ssh

  • 群起并测试集群

虚拟机准备

编写集群分发脚本xsync

1、scp(secure copy)安全拷贝

  • 定义

    scp可以实现服务器与服务器之间的数据拷贝。(from server1 to server2)

  • 基本语法

    scp -r $pdir/$fname $user@$host:$pdir/$fname

    命令 递归 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称

     scp  -r     $pdir/$fname       $user@$host:$pdir/$fname
  • 实操

    • 前提:在 hadoop102、hadoop103、hadoop104 都已经创建好的/opt/module、 /opt/software 两个目录

    • 在hadoop102上,将hadoop102中/opt/module/jdk1.8.0_212目录拷贝到hadoop103上。

     [root@hadoop102 ~]$ scp -r /opt/module/jdk1.8.0_212 root@hadoop103:/opt/module
    • 在hadoop103上,将hadoop102中/opt/module/hadoop-3.1.3目录拷贝到hadoop103上。

     [root@hadoop103 ~]$ scp -r root@hadoop102:/opt/module/hadoop-3.1.3 /opt/module/ 
    • 在hadoop103上操作,将hadoop102中/opt/module目录下所有目录拷贝到hadoop104上。

     [root@hadoop103 opt]$ scp -r root@hadoop102:/opt/module/* root@hadoop104:/opt/module 

2、rsync远程同步工具

  • 定义

    rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。

  • rsync和scp区别:

    用rsync做文件的复制要比scp的速度快,rsync只对差异文件做更新。scp是把所有文件都复制过去。

  • 基本语法

    rsync -av $pdir/$fname $user@$host:$pdir/$fname

    命令 选项参数 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称

     rsync -av pdir/fname user @user@host:pdir/fname

    选线参数说明

    选项功能
    -a 归档拷贝
    -v 显示复制过程
  • 实操

    • 删除hadoop103中/opt/module/hadoop-3.1.3/wcinput

     [root@hadoop103 hadoop-3.1.3]$ rm -rf wcinput/
    • 同步hadoop102中的/opt/module/hadoop-3.1.3到hadoop103

     [root@hadoop102 module]$ rsync -av hadoop-3.1.3/ root@hadoop103:/opt/module/hadoop-3.1.3/

3、xsync集群分发脚本

  • 需求:循环复制文件到所有节点的相同目录下

  • 在/home/bin目录下创建xsync文件

     [root@hadoop102 opt]$ cd /home/atguigu
     
     [root@hadoop102 ~]$ mkdir bin
     
     [root@hadoop102 ~]$ cd bin
     
     [root@hadoop102 bin]$ vim xsync
  • 在该文件编写代码

     #!/bin/bash
     #1.判断参数个数
     if [ $# -lt 1 ]
     then
     echo Not Enough Arguement!
     exit;
     fi
     #2.遍历集群所有机器
     for host in hadoop102 hadoop103 hadoop104
     do
     echo ================$host============
     #3.遍历所有目录。挨个发送
     for file in $@
     do
     #4.判断文件是否存在
     if [ -e $file ]
     then
     #5.获取父目录
     pdir=$(cd -P $(dirname $file); pwd)
     #6.获取当前文件的名称
     fname=$(basename $file)
     ssh $host "mkdir -p $pdir"
     rsync -av $pdir/$fname $host:$pdir
     else
     echo $file does not exists!
     fi
     done
     done
  • 修改脚本xsync的权限

     [root@hadoop102 bin]$ chmod 777(+x) xsync
  • 测试脚本

     [atguigu@hadoop102 ~]$ xsync /home/atguigu/bin
  • 将脚本复制到/bin中,以便全局调用

     [root@hadoop102 bin]$ sudo cp xsync /bin/
  • 同步环境变量配置(root所有者)

     [root@hadoop102 ~]$ sudo ./bin/xsync /etc/profile.d/my_env.sh

SSH免密登录

配置ssh

  • 基本语法

    ssh 另一台电脑的 IP 地址

  • ssh 连接时出现 Host key verification failed 的解决方法

     [atguigu@hadoop102 ~]$ ssh hadoop103 
  • 如果出现如下内容

     Are you sure you want to continue connecting (yes/no)? 
    • 输入 yes,并回车

  • 退回到 hadoop102

  [atguigu@hadoop103 ~]$ exit
  • 查看sshd的状态:

 systemctl status sshd

无密钥配置

免密登录原理

image-20230408110644744

时间服务器配置(必须 root 用户)
  1. 查看所有节点 ntpd 服务状态和开机自启动状态

     [atguigu@hadoop102 ~]$ sudo systemctl status ntpd [atguigu@hadoop102 ~]$ sudo systemctl start ntpd [atguigu@hadoop102 ~]$ sudo systemctl is-enabled ntpd
  2. 修改 hadoop102 的 ntp.conf 配置文件

     [atguigu@hadoop102 ~]$ sudo vim /etc/ntp.conf

    修改内容

    • 修改 1(授权 192.168.10.0-192.168.10.255 网段上的所有机器可以从这台机器上查 询和同步时间)

       #restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap
       
       restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap
    • 修改 2(集群在局域网中,不使用其他互联网上的时间)

       server 0.centos.pool.ntp.org iburst server 1.centos.pool.ntp.org iburst server 2.centos.pool.ntp.org iburst server 3.centos.pool.ntp.org iburst 
       
       #server 0.centos.pool.ntp.org iburst #server 1.centos.pool.ntp.org iburst #server 2.centos.pool.ntp.org iburst #server 3.centos.pool.ntp.org iburst
    • 添加 3(当该节点丢失网络连接,依然可以采用本地时间作为时间服务器为集群 中的其他节点提供时间同步)

       server 127.127.1.0 
       
       fudge 127.127.1.0 stratum 10
  3. 修改 hadoop102 的/etc/sysconfig/ntpd 文件

     [atguigu@hadoop102 ~]$ sudo vim /etc/sysconfig/ntpd

    增加内容如下(让硬件时间与系统时间一起同步)

     SYNC_HWCLOCK=yes
  4. 重新启动 ntpd 服务

     [atguigu@hadoop102 ~]$ sudo systemctl start ntpd
  5. 设置 ntpd 服务开机启动

     [atguigu@hadoop102 ~]$ sudo systemctl enable ntpd
其他机器配置(必须 root 用户)
  1. 关闭所有节点上 ntp 服务和自启动

     [atguigu@hadoop103 ~]$ sudo systemctl stop ntpd
     [atguigu@hadoop103 ~]$ sudo systemctl disable ntpd
     [atguigu@hadoop104 ~]$ sudo systemctl stop ntpd
     [atguigu@hadoop104 ~]$ sudo systemctl disable ntpd
  2. 在其他机器配置 1 分钟与时间服务器同步一次

     [atguigu@hadoop103 ~]$ sudo crontab -e

    编写定时任务如下:

      */1 * * * * /usr/sbin/ntpdate hadoop102
  3. 修改任意机器时间

     [atguigu@hadoop103 ~]$ sudo date -s "2021-9-11 11:11:11"
  4. 1 分钟后查看机器是否与时间服务器同步

     [atguigu@hadoop103 ~]$ sudo date
 

 

热门相关:无量真仙   学霸女神超给力   名门天后:重生国民千金   名门天后:重生国民千金   无限杀路