您的位置:首页 > 其它

WebCDN流量及QOS异常故障RC查找与经验分享

2014-12-24 00:07 239 查看


WebCDN流量及QOS异常故障RC查找与经验分享
 

大规模计算网络WebCDN用于解决大网互连互通,降低源站复杂性及压力,性能方面,提高大用户访问量的网页速度体验方面,有非常好的效果.WebCDN本...

<iframe id="cproIframe_u944267" width="250" height="250" src="http://pos.baidu.com/acom?adn=3&at=231&aurl=&cad=1&ccd=24&cec=UTF-8&cfv=15&ch=0&col=zh-CN&conOP=0&cpa=1&dai=2&dis=0&ltr=http%3A%2F%2Fwww.5iops.com%2Fhtml%2Fproblem%2F2.html&ltu=http%3A%2F%2Fwww.5iops.com%2Fhtml%2F2012%2Fproblem_0607%2F83.html&lunum=6&n=qudao123_cpr&pcs=1345x659&pis=10000x10000&ps=591x213&psr=1366x768&pss=1345x873&qn=2124cddf7b60ee91&rad=&rsi0=250&rsi1=250&rsi5=2&rss0=%23FFFFFF&rss1=%23FFFFFF&rss2=%230000FF&rss3=%23444444&rss4=%23008000&rss5=&rss6=%23e10900&rss7=&scale=&skin=&td_id=944267&tn=text_default_250_250&tpr=1419350689310&ts=1&xuanting=0&dtm=BAIDU_DUP2_SETJSONADSLOT&dc=2&di=u944267" align="center,center" marginwidth="0" marginheight="0" scrolling="no" frameborder="0" allowtransparency="true"></iframe>

大规模计算网络WebCDN用于解决大网互连互通,降低源站复杂性及压力,性能方面,提高大用户访问量的网页速度体验方面,有非常好的效果.WebCDN本身的稳定性也决定了大用户请求网页的QOS.
然而加速网页中某1-2个网页设计不合理或加速某个源站中某个元素缺失的,也很可能形成WebCDN雪崩产生,进来全面影响WebCDN整体加速的QOS.本文以最近发生的WebCDN流量及QOS异常为例,分享一下故障排查过程,RC等经验.

现象:

QOS第三方监测数据发现:网站首页首屏时间 ,网站首页总下载时间飚升;



运维监控系统发现:WEBCDN流量大涨及连接数飚升;



取某个WEBCDN节点的机器,分析其上6.1-6.6号的nginx日志:

 

总体请求数:

 

for i in `find . -type f -name "*-20-05.log.gz"`;do a=`zcat $i|wc -l`;echo "$i $a";done|sort

 

./2012-06-01-20-05.log.gz 635220

./2012-06-02-20-05.log.gz 562762

./2012-06-03-20-05.log.gz 584111

./2012-06-04-20-05.log.gz 609735

./2012-06-05-20-05.log.gz 682701

./2012-06-06-20-05.log.gz 1011371

 

整体请求数有所上升



 

查看集中的url访问:

for i in `find . -type f -name "*-20-05.log.gz"`;do echo "$i `zcat $i|awk '{a[$2]++}END{for(i
in a) print i,a[i],a[i]/NR}'|sort -k2 -nr|head -1`";done|sort

 

./2012-06-01-20-05.log.gz img1.5iops.com 157730 0.248308

./2012-06-02-20-05.log.gz img1.5iops.com 133432 0.237102

./2012-06-03-20-05.log.gz img1.5iops.com 130054 0.222653

./2012-06-04-20-05.log.gz img1.5iops.com 130020 0.21324

./2012-06-05-20-05.log.gz img1.5iops.com 177065 0.25936

./2012-06-06-20-05.log.gz focus.5iops.com 335022 0.331255  #focus的域名访问暂所有请求的33%

 

分析1号—6号的focus的访问情况,发现6.6号访问的比例较之前增加了30倍。

 

for i in `find . -type f -name "*-20-05.log.gz"`;do echo "$i `zcat $i|sed 's/"//g'|awk'{if($2=="focus.5iops.com")a++}END{print
a/NR}'`";done|sort

./2012-06-01-20-05.log.gz 0.0223383

./2012-06-02-20-05.log.gz 0.0173695

./2012-06-03-20-05.log.gz 0.0175429

./2012-06-04-20-05.log.gz 0.0200989

./2012-06-05-20-05.log.gz 0.0186056

./2012-06-06-20-05.log.gz 0.332346

 

而这些focus的访问中499和404占了很多:

zcat 2012-06-06-20-05.log.gz |awk '{if($2=="focus.5iops.com") print $0}'|awk '{a[$9]++}END{for(i in a)print i,a[i]}'

408 15

200 11605

400 84

500 628

502 5

304 1

404 54957

504 4

499 273572

 

其中30W的访问集中在两个图片上,这个是由于源站程序存在问题导致。

 

zcat 2012-06-06-20-05.log.gz |awk '{if($2=="focus.5iops.com") print $7}'|sort |uniq -c|sort -nr

 190259 /subject/meirong120606new/img/nav_a.png

 103553 /subject/meirong120606new/img/nav_b.png

  18748 /subject/meirong120606old/img/nav_a.png

  16682 /subject/meirong120606old/img/nav_b.png

 

 

大量的4xx的访问导致squid不能正常缓存,而尝试去backup server,造成另外的机器incoming的流量增加



当尝试失败后,又去源站进行请求,由于一直不能正常缓存,造成大量的重复的链接不能正常释放,造成ss的连接数大量上升,同时squid的命中率下降

Ss 结果



Mem命中率:



 

查看页面的调用情况:

在页面的代码调用中,有个css样式(.Nav)调用了这2个不存在的图片,而调用这个样式图片的是<li>标签,单个页面中存在多<li>标签及循环调用,即每1次对此页面请求会产生大量对WEBCDN的非缓存的404请求。

 

 



 

 



 




 

 

在21:30左右修复了这个问题,同时webcdn恢复正常

 

总结:

1.利用好webcdn的状态码监控和增加报警

2.源站要尽可能保证元素正确且存在,非正常的状态码在webcdn不能被缓存,就会造成重复的回源,影响webcdn性能。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: