利用Python获取ZOJ所有题目的名字
2014-11-10 15:51
351 查看
先贴出代码,行数比较少,仅仅用正则表达式分析出题目Title所在的标签并把题目Title提取出来
这个把key和value通过字典保存到了'zoj_list'这个持久化字典中。
读取这个字典的代码如下:
import urllib.request import re import dbm #定义URL,其中%d用于替换页码 url = 'http://acm.zju.edu.cn/onlinejudge/showProblems.do?contestId=1&pageNumber=%d' #连接持久化字典,这里用创建的方法'c'来创建写入 db = dbm.open('zoj_list', 'c') for index in range(1, 30): this_url = url % (index)#替换URL中代表页码的数字 html = urllib.request.urlopen(this_url).read()#read方法读取页面HTML html = html.decode('utf-8')#UTF-8编码,没有这句会提示错误 title = re.compile('<font color="blue">.*</font>')#正则之,编译之 key = '' cnt = 1 for x in title.findall(html): title_parse = re.compile('<[^>]+>')#除去标签的正则 get = title_parse.sub('', x)#除去标签 if cnt % 2 == 0: value = get db[key] = value else: key = get cnt += 1
这个把key和value通过字典保存到了'zoj_list'这个持久化字典中。
读取这个字典的代码如下:
import dbm db = dbm.open('zoj_list', 'r') print(db['1001']) for index in range(1001, 2000): in_ch = str(index) print(db[in_ch])
相关文章推荐
- Python爬虫(二)--利用百度地图API批量获取城市所有的POI点
- 利用python.os.listdir获取文件夹中所有文件名
- Python--glob 获取指定目标下所有的jpg文件的名字
- [Python]利用ricequant获取上证指数以及所有股票历史价格数据
- python如何获取一个文件夹内包括子文件夹所有文件的名字和路径
- Python爬虫实例_利用百度地图API批量获取城市所有的POI点
- python 获取excel文件的所有sheet名字
- 利用webservice获取所有手机号归属地
- c#利用反射轻松遍历类获取其所有属性及属性值
- oledb 获取所有表的名字和列名
- Python获取指定路径下的某类型文件的所有文件名
- Python获取APNIC地址库的所有IP地址Whois信息
- 利用python获取linux系统时间
- 【用Python写爬虫】获取html的方法【五】:利用Twisted框架之client.getPage
- python_批量获取指定文件夹下的所有文件的厂商信息
- python 如何获取文件夹下所有的目录。
- python利用pysnmp获取交换机级联接口
- Python recipe(15):获取类的所有成员
- Python利用系统命令获取文件(夹)信息以及Python对Excel的简单操作
- 利用OpenCV 2.2 的Python接口实现Ostu(大津法)获取阈值