python抓取网页的一个小例子
2015-08-16 18:39
591 查看
#!/usr/bin/python #coding=utf-8 from BeautifulSoup import BeautifulSoup import urllib import re import time def getHtml(url): page = urllib.urlopen(url) html = page.read() return html def check(result_list,url): # html = getHtml("http://stock.cnstock.com/live"); html = getHtml(url); soup = BeautifulSoup(html); myul=soup.find('ul',id='zb-list'); first=myul.findAll('a')[0]; result_list.append(first['href']); result_list.append(first['title']); html = getHtml(first['href']); #print html; soup = BeautifulSoup(html,fromEncoding="gb2312"); mydiv=soup.find('div',id='qmt_content_div'); #print mydiv; for item in mydiv.findAll('a'): result_list.append(item['href']); result_list.append(item.getText()); #print result_list; #print len(result_list); result_list=[]; old_result_list=[]; while True: check(result_list,"http://stock.cnstock.com/live"); if cmp(old_result_list,result_list): print "changed"; for li in result_list: print li; else: print "no changed"; old_result_list= result_list[:]; del result_list [:]; #time.strftime( ISOTIMEFORMAT, time.localtime( time.time() ) ); print time.ctime();#time.localtime() ; time.sleep(5);
相关文章推荐
- python操作MySQL
- Vim - python autocomplete plugin
- 关于selenium+python的googledirver和iedirver的配置
- python对拍程序
- Windows下为64位的python3.4.3安装numpy
- 教你用200行Python代码“换脸”
- Python 的 Numpy SciPy MatPlotLib配置
- python的二分查找实现
- python 点滴记录14:join()方法
- vijos - P1302连续自然数和 (公式推导 + python)
- 使用Python操作MySQL的一些基本方法
- Opencv Python 2.7配置
- python操作xml文件详细介绍
- Python 之 将字符串数组转换为浮点型数组
- python二路归并排序实现法
- Python生态环境简介
- Python 之 读取txt文件
- py 格式转换为 exe 使用方法
- Python包管理工具-pip
- win 环境安装python 和 Py pip