linux运维工程师工作中的一些常见问题解决方法
2013-09-14 21:28
741 查看
本文总结了linux运维工程师在工作中遇到的一些问题及解决方法,希望对从事运维工作的新手们有所帮助!
1.shell脚本死活不执行
问题:某天研发某同事找我说帮他看看他写的shell脚本,死活不执行,报错。我看了下,脚本很简单,也没有常规性的错误,报“:badinterpreter:Nosuchfileordirectory”错。一
看这错,我就问他是不是在windows下编写的脚本,然后在上传到linux服务器的……果然。
原因:在DOS/Windows里,文本文件的换行符为rn,而在*nix系统里则为n,所以DOS/Windows里编辑过的文本文件到了*nix里,每一行都多了个^M。
解决:1)重新在linux下编写脚本;2)vi:%s/r//g:%s/^M//g(^M输入用Ctrl+v,Ctrl+m)
2.crontab输出
问题:/var/spool/clientmqueue目录占用空间超过100G
原因:cron中执行的程序有输出内容,输出内容会以邮件形式发给cron的用户,而sendmail没有启动所以就产生了/var/spool/clientmqueue目录下的那些文件,日积月累可能撑破磁盘。
解决:1)直接手动删除:ls|xargsrm-f;2)彻底解决:在cron的自动执行语句后加上>/dev/null2>&1
3.telnet很慢
问题:某天研发某同事说10.50访问10.52memcached服务异常,让我们检查下看网络/服务/系统是否有异常。检查发现系统正常,服务正常,10.50ping10.52也正常,但10.50telnet10.52很慢。同时发现该机器的namesever是不起作用的。
原因:becauseyourPCdoesn’tdoareverseDNSlookuponyourIPthen…whenyoutelnet/ftpintoyourlinuxbox,it’lldoadnslookuponyou。
解决:1)修改/etc/hosts使hostname和ip对应;2)在/etc/resolv.conf注释掉nameserver或者找一个“活的”nameserver。
4.Read-onlyfilesystem
问题:同事在mysql里建表建不成功,提示如下:
mysql>createtablewosontest(colddname1char(1));
ERROR1005(HY000):Can’tcreatetable‘wosontest’(errno:30)
经检查mysql用户权限以及相关目录权限没问题;用perror30提示信息为:OSerrorcode30:Read-onlyfilesystem
可能原因:1)文件系统损坏;2)磁盘又坏道;3)fstab文件配置错误,如分区格式错误错误(将ntfs写成了fat)、配置指令拼写错误等。
解决:1)由于是测试机,重启机器后恢复;2)网上说用mount可解决。
5.文件删了磁盘空间没释放
问题:某天发现某台机器df-h已用磁盘空间为90G,而du-sh/*显示所有使用空间加起来才30G,囧。
原因:可能某人直接用rm删除某个正在写的文件,导致文件删了但磁盘空间没释放的问题
解决:1)最简单重启系统或者重启相关服务。
2)干掉进程
/usr/sbin/lsof|grepdeleted
ora25575data33uREG65,654294983680/oradata/DATAPRE/UNDOTBS009.dbf(deleted)
从lsof的输出中,我们可以发现pid为25575的进程持有着以文件描述号(fd)为33打开的文件/oradata/DATAPRE/UNDOTBS009.dbf。在我们找到了这个文件之后可以通过结束进程的方式来释放被占用的空间:echo>/proc/25575/fd/33
3)删除正在写的文件一般用cat/dev/null>file
6.find文件
问题:在tmp目录下有大量包含picture_*的临时文件,每天晚上2:30对一天前的文件进行清理。之前在crontab下跑如下脚本,但是发现脚本效率很低,每次执行时负载猛涨,影响到其他服务。
#!/bin/sh
find/tmp-name“picture_*”-mtime+1-execrm-f{};
原因:目录下有大量文件,用find很耗资源。
解决:
#!/bin/sh
cd/tmp
time=`date-d“2dayago”“+%b%d”`
ls-l|grep“picture”|grep“$time”|awk‘{print$NF}’|xargsrm-rf
7.获取不了网关mac地址
问题:从2.14到3.65(映射地址2.141)网络不通,但是从3端的其他机器到3.65网络OK。
原因:
#arp
AddressHWtypeHWaddressFlagsMaskIface
192.168.3.254etherincompletCMbond0
表面现象是机器自动获取不了网关MAC地址,网络工程师说是网络设备的问题,具体不清。
1.shell脚本死活不执行
问题:某天研发某同事找我说帮他看看他写的shell脚本,死活不执行,报错。我看了下,脚本很简单,也没有常规性的错误,报“:badinterpreter:Nosuchfileordirectory”错。一
看这错,我就问他是不是在windows下编写的脚本,然后在上传到linux服务器的……果然。
原因:在DOS/Windows里,文本文件的换行符为rn,而在*nix系统里则为n,所以DOS/Windows里编辑过的文本文件到了*nix里,每一行都多了个^M。
解决:1)重新在linux下编写脚本;2)vi:%s/r//g:%s/^M//g(^M输入用Ctrl+v,Ctrl+m)
2.crontab输出
问题:/var/spool/clientmqueue目录占用空间超过100G
原因:cron中执行的程序有输出内容,输出内容会以邮件形式发给cron的用户,而sendmail没有启动所以就产生了/var/spool/clientmqueue目录下的那些文件,日积月累可能撑破磁盘。
解决:1)直接手动删除:ls|xargsrm-f;2)彻底解决:在cron的自动执行语句后加上>/dev/null2>&1
3.telnet很慢
问题:某天研发某同事说10.50访问10.52memcached服务异常,让我们检查下看网络/服务/系统是否有异常。检查发现系统正常,服务正常,10.50ping10.52也正常,但10.50telnet10.52很慢。同时发现该机器的namesever是不起作用的。
原因:becauseyourPCdoesn’tdoareverseDNSlookuponyourIPthen…whenyoutelnet/ftpintoyourlinuxbox,it’lldoadnslookuponyou。
解决:1)修改/etc/hosts使hostname和ip对应;2)在/etc/resolv.conf注释掉nameserver或者找一个“活的”nameserver。
4.Read-onlyfilesystem
问题:同事在mysql里建表建不成功,提示如下:
mysql>createtablewosontest(colddname1char(1));
ERROR1005(HY000):Can’tcreatetable‘wosontest’(errno:30)
经检查mysql用户权限以及相关目录权限没问题;用perror30提示信息为:OSerrorcode30:Read-onlyfilesystem
可能原因:1)文件系统损坏;2)磁盘又坏道;3)fstab文件配置错误,如分区格式错误错误(将ntfs写成了fat)、配置指令拼写错误等。
解决:1)由于是测试机,重启机器后恢复;2)网上说用mount可解决。
5.文件删了磁盘空间没释放
问题:某天发现某台机器df-h已用磁盘空间为90G,而du-sh/*显示所有使用空间加起来才30G,囧。
原因:可能某人直接用rm删除某个正在写的文件,导致文件删了但磁盘空间没释放的问题
解决:1)最简单重启系统或者重启相关服务。
2)干掉进程
/usr/sbin/lsof|grepdeleted
ora25575data33uREG65,654294983680/oradata/DATAPRE/UNDOTBS009.dbf(deleted)
从lsof的输出中,我们可以发现pid为25575的进程持有着以文件描述号(fd)为33打开的文件/oradata/DATAPRE/UNDOTBS009.dbf。在我们找到了这个文件之后可以通过结束进程的方式来释放被占用的空间:echo>/proc/25575/fd/33
3)删除正在写的文件一般用cat/dev/null>file
6.find文件
问题:在tmp目录下有大量包含picture_*的临时文件,每天晚上2:30对一天前的文件进行清理。之前在crontab下跑如下脚本,但是发现脚本效率很低,每次执行时负载猛涨,影响到其他服务。
#!/bin/sh
find/tmp-name“picture_*”-mtime+1-execrm-f{};
原因:目录下有大量文件,用find很耗资源。
解决:
#!/bin/sh
cd/tmp
time=`date-d“2dayago”“+%b%d”`
ls-l|grep“picture”|grep“$time”|awk‘{print$NF}’|xargsrm-rf
7.获取不了网关mac地址
问题:从2.14到3.65(映射地址2.141)网络不通,但是从3端的其他机器到3.65网络OK。
原因:
#arp
AddressHWtypeHWaddressFlagsMaskIface
192.168.3.254etherincompletCMbond0
表面现象是机器自动获取不了网关MAC地址,网络工程师说是网络设备的问题,具体不清。
相关文章推荐
- linux运维的一些常见问题解决方法
- linux下的安装mysql与遇到一些常见问题的解决方法
- linux一些问题解决方法的收集
- PM工作中常见问题及解决方法
- IIS 配置问题 一些iis常见问题的解决方法
- 最近运维中遇到的一些问题及解决方法
- (GPS移植三部曲)Linux下移植GPS应用程序之常见问题的分析与解决方法之三
- 在使用android studio过程中,使用gradle编译的时候总会出现一些问题,下面是几个常见问题的解决方法。
- 运维常见问题及解决方法汇总(持续更新...)
- Android开发由eclipse转Android Studio中一些常见出错问题解决方法
- 使用ClickOnce发布你的软件前,应该知道的一些事情(一些常见问题解决方法)
- linux 常见问题解决方法(FC6)
- 远程登录linux的mysql数据库常见问题解决方法参考
- Linux运维的一些常见问题及解决方法
- WebDriver一些常见问题的解决方法
- Linux环境下Mysql的安装教程及安装过程常见问题的解决方法
- linux:dpkg:依赖关系问题使得 skype 的配置工作不能继续:问题解决方法
- Linux下的一些问题收集及解决方法(一)
- Linux/Unix存储管理常见问题与解决方法(三)