您的位置:首页 > 其它

【集群管理】可能遇到的问题及解决方法(持续更新中......)

2016-12-20 10:14 561 查看
1.创建账号
 
首先创建账号:
useraddxxx   #xxx为用户名
passwd xxx
 
然后cd到nis环境目录,执行make,同步其他节点账号
cd /var/yp
make
这时候所有计算节点都有该账户
 
实现ssh无密码登陆(若需要):
切换到xxx账户:
su xxx
ssh-keygen-t rsa #回车三次
ssh-copy-id localhost #回车输入密码即可
 
完成
 

2. 若管理节点死机

需要登录bmc ip去重启机器 

重新挂载计算节点的/opt/intel 、/opt/caffeData 和
/home
挂载方法见【集群管理】新集群管理节点dl1 账户创建及挂载

3. 计算节点死机或者关机
 
两种方法:

一种是到实验室重启所有机器
重启过程中有的机器一次性无法重启,需要多重启几次。尤其是13号14号机器
 

另一种记录下bmc ip 远程重启

node1 上需要重新挂载/mnt/keepfs
挂载方法:
dsh -aM -c "mount -t lustre10.0.0.102@o2ib0:/keepfs /mnt/keepfs"
 
4. KNL节点root用户可以登录,但是没有普通用户
 
是nis服务没启动,nis服务没启动是没有普通用户的
 
root权限登录到该节点
运行service  ypbind start启动下就可以了
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐