您的位置：首页 > 大数据

大数据集群失联问题解决方案

2017-11-23 03:45 92 查看

我们之前维护的集群经常性地出现失联的情况，大数据集群上，还有es集群在跑，在凌晨左右集群会有随机的机器间歇性失联，cpu飙高，ssh登录不了。

在尝试了诸多方法后，通过每天定时清理缓存的方式解决了集群失联的问题。生产环境的大数据集群每天会有大量缓存，若不清理，就会导致内存使用率一直居高不下，长此以往，集群机器就容易失联。

手工释放linux内存

To free pagecache, use
echo 1 > /proc/sys/vm/drop_caches;

to free dentries and inodes, use
echo 2 > /proc/sys/vm/drop_caches;

to free pagecache, dentries and inodes, use
echo 3 >/proc/sys/vm/drop_caches.

选择echo 3 >/proc/sys/vm/drop_caches可以直接清理pagecache, dentries and inodes

在跳板机上，写个脚本，加入定时任务，即可

cd /etc

mkdir mission

cd mission

vim clean_cache.sh

#!/bin/bash
for i in {xxx..xxx}; do ssh 192.168.xx.$i "echo 3 > /proc/sys/vm/drop_caches"; done

crontab -e

0 0 * * *       /etc/mission/clean_cache.sh
0 12 * * *      /etc/mission/clean_cache.sh

每天0点和12点，各跑一次，清理集群缓存，可以有效解决集群失联问题

查看任务运行状况

cat /var/log/cron

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航