多线程截取html中相应的数据
2013-10-27 15:57
435 查看
多线程截取html中相应的数据
#coding=gbk import re,urllib,time import linecache,threading from bs4 import BeautifulSoup as soup mlock = threading.Lock() a = [] def get_content(ip_content): '获取HTML中需要的内容' global a pythoner = urllib.urlopen("http://hk.bing.com/search?q=ip%3A125.39.240.113&\ qs=n&form=QBLH&filt=all&pq=ip%{0}&sc=0-2&sp=-1&sk=" .format(ip_content) ) content = pythoner.read() pythoner.close() c = soup(content) data = c.find_all("div",{"class":"sb_meta"}) mlock.acquire() for x in data: da = re.split('/',x.cite.text)[0] if da not in a: a.append(da) data = open('c:\mylog.txt','a') print >> data,da mlock.release() def thread_geturl(process,info): '根据IP地址生成相应的进程' for x in info: d = threading.Thread(target=process,args=[x]) d.start() if __name__ == '__main__': ip_list = [ x for x in linecache.getlines(r'c:\iplist.txt')] thread_geturl(get_content,ip_list)IP_list
相关文章推荐
- 解决ie动态修改link样式,import css不刷新的问题
- ASP编程入门进阶(十三):Ad & Content Rotator
- css import与link的区别
- 基于一个应用程序多线程误用的分析详解
- Flex include和import ActionScript代码
- 浅解关于C#多线程的介绍
- 批处理程序中的“多线程”处理代码
- 小试JavaScript多线程第1/2页
- JavaScript多线程的实现方法
- android 多线程技术应用
- java多线程应用实现方法
- phpmyadmin导入(import)文件限制的解决办法
- JavaScript是否可实现多线程 深入理解JavaScript定时机制
- Android多线程及异步处理问题详细探讨
- Python代理抓取并验证使用多线程实现
- Python多线程学习资料
- 基于Java回顾之多线程详解
- 深入多线程之:Reader与Write Locks(读写锁)的使用详解
- 一些.NET对多线程异常处理技巧分享
- CURL的学习和应用(附多线程实现)