[经验随笔]大量close_wait状态连接问题的分析与解决
2009-05-20 21:19
781 查看
监控系统项目已收工,虽然项目周期延期将近半月,但值得欣慰的是最终它已平稳上线并表现出强劲的功效。得遐整理项目开发过程中的问题处理笔记,总结经验和教训记录日志以备后查。
项目中有两个模块利用tcp连接传输数据,其中接收端使用主线程负责accept新的连接请求,然后将新的连接加入线程池(deal_connect)处理该连接,线程池中的线程处理完成后在deal_connect中将该sock关闭的方式工作。在测试阶段发现接收端程序在网络状况不好的情况下启动一会儿就会出现大量socket处于close_wait状态无法消除,最后耗光所有描述符导致程序死掉。
跟踪发现某个时刻(网络状况不好的情况下)线程池中的所有线程都阻塞在recv上(阻塞式且没有设置超时时间),此时又有大量连接请求被主线程accept进来并塞给线程池,由于阻塞时间过长导致那些在线程池中的任务池中的连接被客户端超时关闭,于是产生了大量close_wait状态的socket,很快耗光系统描述符。
解决办法:
a。accept时限制已经accepted但并没有任何线程处理的socket个数。
b。在recv和write之前,首先用select设置超时时间检测是否可用,如果超时仍然不可用则关闭该socket。
项目中有两个模块利用tcp连接传输数据,其中接收端使用主线程负责accept新的连接请求,然后将新的连接加入线程池(deal_connect)处理该连接,线程池中的线程处理完成后在deal_connect中将该sock关闭的方式工作。在测试阶段发现接收端程序在网络状况不好的情况下启动一会儿就会出现大量socket处于close_wait状态无法消除,最后耗光所有描述符导致程序死掉。
跟踪发现某个时刻(网络状况不好的情况下)线程池中的所有线程都阻塞在recv上(阻塞式且没有设置超时时间),此时又有大量连接请求被主线程accept进来并塞给线程池,由于阻塞时间过长导致那些在线程池中的任务池中的连接被客户端超时关闭,于是产生了大量close_wait状态的socket,很快耗光系统描述符。
解决办法:
a。accept时限制已经accepted但并没有任何线程处理的socket个数。
b。在recv和write之前,首先用select设置超时时间检测是否可用,如果超时仍然不可用则关闭该socket。
相关文章推荐
- 通讯系统经验谈【一】TCP连接状态分析:SYNC_RECV,CLOSE_WAIT,TIME_WAIT
- CLOSE_WAIT状态错误分析和解决方法(网络连接无法释放)
- Linux网络tcp连接大量CLOSE_WAIT和TIME_WAIT状态的出现和解决方法
- 通讯系统经验谈【一】TCP连接状态分析:SYNC_RECV,CLOSE_WAIT,TIME_WAIT
- 通讯系统经验谈【一】TCP连接状态分析:SYNC_RECV,CLOSE_WAIT,TIME_WAIT
- 通讯系统经验谈TCP连接状态分析:SYNC_RECV,CLOSE_WAIT,TIME_WAIT
- TCP连接大量CLOSE_WAIT状态问题排查
- unix下解决服务器产生大量close_wait问题
- 对服务器上出现大量的SYN_RECV状态的TCP连接的问题分析
- TCP连接状态分析:SYNC_RECV,CLOSE_WAIT,TIME_WAIT
- 系统出现大量TIME_WAIT状态的连接的解决办法
- linux服务器出现大量CLOSE_WAIT状态的连接
- LINUX下解决time_wait连接过多和同一IP连接过多的问题 及 TCP/IP TIME_WAIT状态原理
- 对服务器上出现大量的SYN_RCVD状态的TCP连接的问题分析
- TCP连接状态分析:SYNC_RECV,CLOSE_WAIT,TIME_WAIT
- 关于close_wait状态的问题分析
- TCP客户端断开连接后,服务器连接处于CLOSE_WAIT状态之解决办法
- 一次服务端大量CLOSE_WAIT问题的解决
- 解决服务器出现大量CLOSE_WAIT和TIME_WAIT连接的方法
- TCP连接状态分析:SYNC_RECV,CLOSE_WAIT,TIME_WAIT