【集群管理】可能遇到的问题及解决方法(持续更新中......)
2016-12-20 10:14
561 查看
1.创建账号
首先创建账号:
useraddxxx #xxx为用户名
passwd xxx
然后cd到nis环境目录,执行make,同步其他节点账号
cd /var/yp
make
这时候所有计算节点都有该账户
实现ssh无密码登陆(若需要):
切换到xxx账户:
su xxx
ssh-keygen-t rsa #回车三次
ssh-copy-id localhost #回车输入密码即可
完成
2. 若管理节点死机
需要登录bmc ip去重启机器
重新挂载计算节点的/opt/intel 、/opt/caffeData 和
/home
挂载方法见【集群管理】新集群管理节点dl1 账户创建及挂载
3. 计算节点死机或者关机
两种方法:
一种是到实验室重启所有机器
重启过程中有的机器一次性无法重启,需要多重启几次。尤其是13号14号机器
另一种记录下bmc ip 远程重启
node1 上需要重新挂载/mnt/keepfs
挂载方法:
dsh -aM -c "mount -t lustre10.0.0.102@o2ib0:/keepfs /mnt/keepfs"
4. KNL节点root用户可以登录,但是没有普通用户
是nis服务没启动,nis服务没启动是没有普通用户的
root权限登录到该节点
运行service ypbind start启动下就可以了
首先创建账号:
useraddxxx #xxx为用户名
passwd xxx
然后cd到nis环境目录,执行make,同步其他节点账号
cd /var/yp
make
这时候所有计算节点都有该账户
实现ssh无密码登陆(若需要):
切换到xxx账户:
su xxx
ssh-keygen-t rsa #回车三次
ssh-copy-id localhost #回车输入密码即可
完成
2. 若管理节点死机
需要登录bmc ip去重启机器
重新挂载计算节点的/opt/intel 、/opt/caffeData 和
/home
挂载方法见【集群管理】新集群管理节点dl1 账户创建及挂载
3. 计算节点死机或者关机
两种方法:
一种是到实验室重启所有机器
重启过程中有的机器一次性无法重启,需要多重启几次。尤其是13号14号机器
另一种记录下bmc ip 远程重启
node1 上需要重新挂载/mnt/keepfs
挂载方法:
dsh -aM -c "mount -t lustre10.0.0.102@o2ib0:/keepfs /mnt/keepfs"
4. KNL节点root用户可以登录,但是没有普通用户
是nis服务没启动,nis服务没启动是没有普通用户的
root权限登录到该节点
运行service ypbind start启动下就可以了
相关文章推荐
- 安卓中经常使用控件遇到问题解决方法(持续更新和发现篇幅)(在textview上加一条线、待续)
- [原]java开发中遇到的问题及解决方法(持续更新)
- 使用Ubuntu遇到的问题以及解决方法(持续更新)
- java开发中遇到的问题及解决方法(持续更新)
- 使用CentOS 遇到的问题以及解决方法(持续更新)
- java开发中遇到的问题及解决方法(持续更新)
- 安卓中常用控件遇到问题解决方法(持续更新和发现篇幅)(在textview上加一条线、待续)
- Caffe搭建:常见问题解决办法和ubuntu使用中遇到问题解决方法(持续更新)
- window下eslipse搭建django遇到的问题以及解决方法积累(持续更新)
- java开发中遇到的问题及解决方法(持续更新)
- sublime 使用中一些遇到问题解决方法和技巧汇总(持续更新)
- 记flume部署过程中遇到的问题以及解决方法(持续更新)
- 使用SourceSafe管理软件开发可能遇到的问题及解决方法
- java开发中遇到的问题及解决方法(持续更新)
- Caffe搭建:常见问题解决办法和ubuntu使用中遇到问题解决方法(持续更新)
- 学习计算机与软件遇到的问题及解决方法(持续更新)
- Microsoft Visual Studio 遇到了问题,需要关闭的一种可能的解决方法
- 遇到的bug及解决方法,持续更新
- 遇到的一些问题及解决方法(不断更新)
- adaboost 算法在实现中的一些问题以及解决方法(持续更新)