您的位置:首页 > 大数据 > Hadoop

笔记

2016-05-04 23:23 411 查看
hadoop从裸机到完全分布的安装(ctrl + alt是让鼠标出来)
1、vmware安装省略
2、ubuntu安装省略
3、安装好ubuntu后修改root用户的密码。即执行sudo passwd输入新的密码
4、建文件夹即mkdir ,修改它的权限的话用chmod 777 或者用chmod rxw也可以(rwx值的是读写和执行权,想改那个权限的话就用chmod oug + 它们)
5、touch a.txt是创建文本文件 。echo >> xxx 往里面写内容 。echo > xxx 新的内容把之前的内容覆盖掉
6、切换在root的用户下执行:nano sudoers 进到里面。在root ALL=(ALL:ALL) ALL下面同样增加一个ubuntu ALL=(ALL:ALL) ALL
7、想挂载文件的话选择菜单栏的虚拟机----> 选择设置 ----CD/DVD --进行挂载文件。挂载文件是在mnt的hgfs下面。要想存放这些挂载文件的话即在cd /mnt/下以sudo mkdir cdrom 创建cdrom文件、创建好后执行sudo mount /dev/cdrom /mnt/cdrom
8、cut-c N-M //切断内容 -c:按照字符数计算 n-m 从第n个到第m个 。n-:n到行尾 -m:行首到第m个,n:第n个字符
9、改变软件源成国内源即进入etc/apt下对sources.list备份后。nano sources.list把下面的软件源复制进去 :
deb http://mirrors.163.com/ubuntu/ precise main universe restricted multiverse
deb-src http://mirrors.163.com/ubuntu/ precise main universe restricted multiverse
deb http://mirrors.163.com/ubuntu/ precise-security universe main multiverse restricted
deb-src http://mirrors.163.com/ubuntu/ precise-security universe main multiverse restricted
deb http://mirrors.163.com/ubuntu/ precise-updates universe main multiverse restricted
deb http://mirrors.163.com/ubuntu/ precise-proposed universe main multiverse restricted
deb-src http://mirrors.163.com/ubuntu/ precise-proposed universe main multiverse restricted
deb http://mirrors.163.com/ubuntu/ precise-backports universe main multiverse restricted
deb-src http://mirrors.163.com/ubuntu/ precise-backports universe main multiverse restricted
deb-src http://mirrors.163.com/ubuntu/ precise-updates universe main multiverse restricted

-------------------------------------
自制软件源也可以,这样用的就是本地软件源
1、备份原来的软件源
cd /etc/apt
cp sources.list soures.lise,bak
2、冲掉sources.list文件
echo "" > sources.list
3、挂载iso文件到/mnt/cdrom
4、
--------------------------

10、执行apt-get update 进行升级,再执行apt-get upgrade

11、安装桌面apt-get install desktop
12、桌面安装好后就对他进行虚拟机增强。在虚拟机的菜单栏上选择重新安装虚拟机把vmwareools这个包复制到桌面,把它解压。ls有个Desktop ,cd进入Desktop里面有个vmware-tools-distrib。再cd进入vmware-tools-distrib里面有个绿色的vmware-install.pl。然后执行sudo ./vmware-install.pl

13、在usr/local下面建一个soft,把所有安装的软件都放在这里面
14、进入你挂载的目录中去找你要安装的软件即执行cd/mnt/hgfs/downloads。把你安装的软件拷贝到ubuntu所建的文件夹下对它进行解压,解压后将它移到soft文件夹中也就是存放所安装的软件的文件夹
15、在soft下给jdk做个链接即执行ln -s jdk1.8.0_65 jdk
16、配置环境变量:
1、在soft的目录编辑 sudo gedit /etc/environment配置:JAVA_HOME=/soft/jdk
PATH="/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:soft/jdk/bin"。
2、让它生效执行 source etc/environment

17、安装hadoop也是和jdk安装一样,同样给它做链接,同样给它环境变量。切换在root的用户nano /etc/enviromnt给它配置环境变量即/soft/hadoop/bin:/soft/hadoop/sbin

18、安装ssh 即执行sudo apt-get install ssh 再给它配秘钥即执行ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa。再把秘钥发到对方的认证库中即执行cat id_rsa.pub >> authorized_keys 。然后测试一下看看还需不需要秘钥登录执行ssh localhost

19、进入/soft/hadoop/etc/hadoop/目录下执行:
接下来就开始配置文件:
1、进入hadoop安装目录:cd /soft/hadoop/etc/hadoop/ 。执行gedit core-site.xml 把
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost/<value>
</property>
</configuration>复制进去
2、再进入gedit hafs-site.xml 把
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>复制进来

3、由于没有mapred-site.xml拷贝一份cp mapred-site.xml.template mapred-site.xml把
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
<property>复制进去

4、再进入gedit yarn-site.xml把
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>复制进去

5、查看配置好的文件:ls -al |grep site.xml

20、格式文件系统hdfs namenode -format

21、启动和停止进程star.dfs.sh、start.yarn.sh和stop.all.sh

22、停止所有的进程stop.all.sh配置环境变量,在soft/hadoop/etc/目录下执行mv hadoop hadoop_pseudo。接着就执行start-all.sh --config /soft/hadoop-2.7.1/etc/hadoop_pseudo。接着再执行:
export HADOOP_CONF_DIR=/soft/hadoop/etc/hadoop_pseudo/

23、soft/hadoop/etc/下再做一个hadoop_local即执行:cp -r hadoop_pseudo hadoop_local
24、进入soft/hadoop/etc/hadoop_local里面执行nano core-site.xml里面把里面的脚本删掉。同样操作nano hdfs-site.xml,删掉里面的脚本 。再把mapred-site.xml删掉。再进入yarn里面也是同样的操作

25、同样在soft/hadoop/etc/目录下做个链接ln -s hadoop_pseudo hadoop
26、把之前的环境变量删掉soft/hadoop/etc/目录下执行export HADOOP_CONF_DIR=,接着再执行echo $HADOOP_CONF_DIR

27、创建目录,在分布式文件系统上创建目录启动所有的进程在/soft/hadoop/etc$下执行: hadoop fs -ls / 看看有没有路径再执行hadoop fs -ls /user/。 hadoop fs -ls -R /可以递归显示目录。hadoop fs -mkdir -p /user/${USER}是创建目录-p多级目录

28、搭建完全分布集群
1、安装java // 和伪分布一样
2、创建user
3、安装hadoop
4、配置SSH
5、格式化
6、启动进程 start-dfs.sh | start-yarn.sh
7、创建目录
8、配置hadoop

29、在、etc/hosts下编辑各个虚拟机的ip映射,并且修改各个虚拟机的名字
30、在宿主机下的ssh的目录下执行scp id_rsa.pub ubuntu@s2:/home/ubuntu/.ssh/。每个克隆的虚拟机都这样执行一遍。操作完上面的步骤后逐一到各个虚拟机里,在ssh目录执行cat id_rsa.pub known_hosts

31、把克隆的虚拟机ssh下面的东西干掉即执行:rm * 。再执行ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa。每台虚拟机都执行这个一遍(这一步和上步一样的,)
32、在第一台虚拟机里执行scp id_rsa.pub ubuntu@s2:~/.ssh/id_rsa.pub.s1。然后登陆到s2的虚拟机上,在s2虚拟机的ssh目录下执行cat id_rsa.pub.s1 >> authorizd_keys

33、在第一台的虚拟机上的soft/hadoop/etc目录下执行cp -r hadoop_pseudo hadoop_cluster。进入 cd hadoop_cluster/里面把core-site.xml里面的内容改成
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://s1/</value>
</property>
</configuration>
进入hdfs-site.xml里面把里面的内容改成
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
</configuration>

进入yarn-site.xml改成:
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>s1</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

进入slaves 把localhost删掉。改成s2 、s3、s4
34、在s1虚拟机里面拷贝一个cp -r hadoop——pesudo hadoop_cluster。在/soft/hadoop/etc$目录下执行 scp -r hadoop_cluster ubuntu@s2:/soft/hadoop/etc/。每个克隆的虚拟机都执行一遍

35、再执行格式化: hdfs --config /soft/hadoop/etc/hadoop_cluster namenode -format

36、启动进程:start-dfs.sh --config /soft/hadoop/etc/hadoop_cluster

完全分布完成
-------------------------------------------------
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息