看到别人的Python爬虫博客,自己也模仿着写一个,顺便练习一下python
2015-05-27 13:47
411 查看
今天在csdn看到“djd已经存在”的爬虫博客,之前没有接触过爬虫,看到博主的简单代码也算是对爬虫有了一些爬虫有了一些初步的了解,也体会到Python方便的文本操作对于爬虫之类的工作一些遍历之处。
我的理解是,首先通过url请求要搜的内容,内容一html的形式返回,通过对html进行解析,就可以得到需要爬虫的内容。
url可以到浏览器上自己获取
我的理解是,首先通过url请求要搜的内容,内容一html的形式返回,通过对html进行解析,就可以得到需要爬虫的内容。
url可以到浏览器上自己获取
#!/usr/bin/python #-*- coding:utf-8 -*- import urllib2 import re class Search: def __init__(self): self.search_url = "http://search.jd.com/Search?keyword=iphone&enc=utf-8&suggest=0&cid3=655" def get_resource(self): res = urllib2.urlopen(self.search_url) htm_src = res.read() return htm_src class ParseResult: def parse_html(self, html): for sku_str in re.findall('<li sku="\d+">', html): sku = sku_str.split('"')[1] print "id: %s" %sku name = re.search('''<font class="skcolor_ljg">iPhone</font>(.*?)<font style='color:#ff0000' class='adwords' id='AD_%s'></font>''' %sku, html) price = re.search('<strong class="J_%s" data-price="(.*?)">' %sku, html) if name != None and price != None: print "name: %s\nprice: %s\n" %(name.group(1), price.group(1)) def run(): search = Search() html = search.get_resource() f = open("jd_iphone_search.txt", "w") f.write(html) parser = ParseResult() parser.parse_html(html) if __name__ == "__main__": run()
相关文章推荐
- 看了一个老师布置的C++作业,也顺便练习一下,提高一下自己
- 月历修改了一下别人的代码自己写的一个新的月历
- 最近看了一段时间Python,练习写了一个抓取淘女郎的爬虫,话不多说,上代码
- 用Python爬虫获取自己感兴趣的博客文章
- Python3爬虫之二网页解析【爬取自己CSDN博客信息】
- 自己封装了一个EF的上下文类.,分享一下,顺便求大神指点
- 第一次用python 写的简单爬虫 记录在自己的博客
- 羡慕别人是无知(你是独一无二的,每个人都有自己的25亿秒,他人不能替你过,你也不能替他人过。),模仿别人是自杀(学习他人的优点可以,纯粹的去模仿他人就是自杀,杀死了自己,创造了一个别人的影子。每个人都有一本适合自己的一本书)
- Python爬虫练习第二章【对一个不是…
- 一个比较不错的开源博客,可以参考一下,自己搭建
- 刚刚在看52单片机和GPS通信程序的时候,看到了一个函数,absacc.h,貌似从来没有遇到过,百度了一下,结合自己的理解,整理如下: http://blog.sina.com.cn/s/blog_4
- 30岁 开通了一个博客,记录一下自己的生活
- 自己偶然看到几篇比较好的博客,记录一下
- 一个开始吧。以后希望自己每天都能来写一下博客
- 练习一下javascript,顺便给博客页面加个小玩意
- python爬虫练习4:刷博客浏览量
- 看到一个很厉害的博客,感慨一下
- Help_我看到别人好的文章,怎么才能够收藏到自己的博客里?_AX
- 《影子跟随算法》目前试着自己写一个联网双人对战的小游戏 看到一篇网络同步的文章很受启发 这里记录一下
- 今天没事,看到一个用C#开发OutLook插件的例子,顺便自己做了一个