您的位置:首页 > 大数据 > 人工智能

[经验随笔]大量close_wait状态连接问题的分析与解决

2009-05-20 21:19 781 查看
监控系统项目已收工,虽然项目周期延期将近半月,但值得欣慰的是最终它已平稳上线并表现出强劲的功效。得遐整理项目开发过程中的问题处理笔记,总结经验和教训记录日志以备后查。

项目中有两个模块利用tcp连接传输数据,其中接收端使用主线程负责accept新的连接请求,然后将新的连接加入线程池(deal_connect)处理该连接,线程池中的线程处理完成后在deal_connect中将该sock关闭的方式工作。在测试阶段发现接收端程序在网络状况不好的情况下启动一会儿就会出现大量socket处于close_wait状态无法消除,最后耗光所有描述符导致程序死掉。

跟踪发现某个时刻(网络状况不好的情况下)线程池中的所有线程都阻塞在recv上(阻塞式且没有设置超时时间),此时又有大量连接请求被主线程accept进来并塞给线程池,由于阻塞时间过长导致那些在线程池中的任务池中的连接被客户端超时关闭,于是产生了大量close_wait状态的socket,很快耗光系统描述符。

解决办法:

a。accept时限制已经accepted但并没有任何线程处理的socket个数。

b。在recv和write之前,首先用select设置超时时间检测是否可用,如果超时仍然不可用则关闭该socket。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: