python抓取京东商城手机列表url实例代码
2013-12-18 00:00
996 查看
#-*- coding: UTF-8 -*- ''' Created on 2013-12-5 @author: good-temper ''' import urllib2 import bs4 import time def getPage(urlStr): ''' 获取页面内容 ''' content = urllib2.urlopen(urlStr).read() return content def getNextPageUrl(currPageNum): #http://list.jd.com/9987-653-655-0-0-0-0-0-0-0-1-1-页码-1-1-72-4137-33.html url = u'http://list.jd.com/9987-653-655-0-0-0-0-0-0-0-1-1-'+str(currPageNum+1)+'-1-1-72-4137-33.html' #是否有下一页 content = getPage(url); soup = bs4.BeautifulSoup(content) list = soup.findAll('span',{'class':'next-disabled'}); if(len(list) == 0): return url return '' def analyzeList(): pageNum = 0 list = [] url = getNextPageUrl(pageNum) while url !='': soup = bs4.BeautifulSoup(getPage(url)) pagelist = soup.findAll('div',{'class':'p-name'}) for elem in pagelist: soup1 = bs4.BeautifulSoup(str(elem)) list.append(soup1.find('a')['href']) pageNum = pageNum+1 print pageNum url = getNextPageUrl(pageNum) return list def analyzeContent(url): return '' def writeToFile(list, path): f = open(path, 'a') for elem in list: f.write(elem+'\n') f.close() if __name__ == '__main__': list = analyzeList() print '共抓取'+str(len(list))+'条\n' writeToFile(list, u'E:\\jd_phone_list.dat');
相关文章推荐
- python抓取京东商城手机列表url实例代码
- 正则表达式匹配(URL、电话、手机、邮箱)的实例代码
- python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪爱彩双色球开奖数据实例
- 通过代码实例展示Python中列表生成式的用法
- Python urllib、urllib2、httplib抓取网页代码实例
- Python登录并获取CSDN博客所有文章列表代码实例
- Python urllib、urllib2、httplib抓取网页代码实例
- Python urllib.urlretrieves 代码实例
- Python实现简单网页图片抓取完整代码实例
- python列表的增删改查实例代码
- python抓取动态网页---实例代码
- python3.4学习笔记(十三) 网络爬虫实例代码,使用pyspider抓取多牛投资吧里面的文章信息,抓取政府网新闻内容
- Python代码: 访问者实例(访问列表,层次列表)
- python获取命令行输入参数列表的实例代码
- Python爬虫实现爬取京东手机页面的图片(实例代码)
- 使用python抓取网站代码,并下载里面的url
- Python中max函数用于二维列表的实例
- Python列表删除的三种方法代码分享
- Python编程scoketServer实现多线程同步实例代码
- 使用Python操作excel文件的实例代码