Web Scraping with Python: 使用 Python 爬 GitHub Star 数
2017-10-24 20:47
901 查看
一、引言
很久没写博客了。并不是因为自己变懒惰了,而是自己开始了新的语言 Python 的学习。三个月啃完了英文版的《Head First Python 2nd》,现在又在学习《Web Scraping with Python》了。之所以选择这本书而不是《Python CookBook》或者《Fluent Python》之类的进阶书籍,是因为我想要尽快的使用实例来锻炼自己使用 Python 的实际编程能力。
这里,在看完了《Web Scraping with Python》这本书的前 63 页后,我萌生了一个想法:
何不使用 Python 来爬一下指定用户的 GitHub 的 Star 数呢?
这是一个非常有用并且能够锻炼自己能力的小实例。
那么,接下来就开始吧:)
二、分析 GitHub
想要写一个爬虫来爬指定 GitHub 用户的 Star 数,我们首先要知道,我们需要什么信息:1. 首先,我们要分析入口网址。比如说,我的 GitHub 用户名就是 wangying2016,那么对于用户名 wangying2016,GitHub 的对应于 repositories 的网址就是:
https://github.com/wangying2016?tab=repositories
可以看到的是,我们只需要知道了任意的用户名,就可以拼凑出其对应的 repositories 的网址了。其对应的网址内容如下:
2. 其次,我们还需要知道 star 对应的 html 标签特征是什么。我们需要能够找到这个页面里面的所有的 star,就必须要知道这个 star 标签的特征是什么。这里,我通过 Chrome 的开发者模式找到了 star 的标签样式:
<a class="muted-link mr-3" href="/wangying2016/Cef3-Soui-Demo/stargazers"> <svg aria-label="star" class="octicon octicon-star" height="16" role="img" version="1.1" viewBox="0 0 14 16" width="14"> <path fill-rule="evenodd" d="M14 6l-4.9-.64L7 1 4.9 5.36 0 6l3.6 3.26L2.67 14 7 11.67 11.33 14l-.93-4.74z"></path> </svg> 2 </a>
这里可以看到,我们只需要找到那个特殊的 svg 标签,其属性值 aria-label 为 star 的即可,然后再找到 svg 的父标签 a,使用 a 获取其文本即可。相关操作如图:
3. 最后,不要忘了我们的 repositories 可能有多页,因此需要遍历各个仓库页。因此,这里需要找到我们的 next 按钮,通过该按钮的 a 标签获取到下一页的网址,然后打开下一页的网址再重复第 2 步的操作,直到找不到 next 按钮为止:
<a class="next_page" rel="next" href="/wangying2016?page=2&tab=repositories">Next</a> <span class="next_page disabled">Next</span>
其中,a 标签是有下一页仓库页的样式,而 span 是没有下一页仓库页的样式,可见,我们只需要找到 a 标签其属性值 class 为 next_page 的即可。相关操作如下:
现在,我们已经具有了完成这个实例的所有需要的条件,那么,让我们开始编写代码吧!
三、我的第一个爬虫实例:)
这里,我使用了 urllib 和 BeautifulSoup 这两个库,前者用来打开网址,后者用来解析 html。为了实现多个页面的遍历,我使用了 while break 的语法结构来模拟 do while 循环(Python 没有 do while 结构)。
另外,需要注意的是,在 star 数字较大的地方,比如说我们的 Linus 老爷:
他的 linux 项目的 star 数高达 51090 个,其中多了一个逗号来标记千位,这个逗号需要手动去掉以转换为 int 类型,此时就用到了 str 的 replace 方法,当然,这些都是比较细节的问题了。
最后一点,不能忘了异常处理。对于不能成功打开的网页,要能够提供出错信息。
最后,大胆的秀出我自己的代码吧:
from urllib.request import urlopen from urllib.error import HTTPError from bs4 import BeautifulSoup userName = input() url = userName + '?tab=repositories' count = 0 while True: # 1. Open repositories page. try: html = urlopen('https://github.com/' + url) bsObj = BeautifulSoup(html) except HTTPError as e: print('open ' + 'https://github.com/' + url + ' failed.') break # 2. Count stars at one page. for star in bsObj.findAll('svg', {'aria-label': 'star'}): count += int(star.parent.get_text().replace(',','')) # 3. Find next page. nextPage = bsObj.find('a', {'class': 'next_page'}) if nextPage is None: break else: url = nextPage.attrs['href'] print(userName + ' has ' + str(count) + ' stars.')
运行的时候,需要我们手动输入一个用户名,比如说:
wangying2016
显示:
再比如说 Linus 老爷:
torvalds
显示:
再比如说我输错了:
wojiubuxinyourenyong
显示:
哈哈,完结撒花:)
四、总结
初学 Python,代码有所稚嫩之处,望各位网友海涵:)不过对于我来说,还是一次很不错的实践。
毕竟:
Life is short, I use Python!
ps: 想要获取工程文件的同学可以到点击这个网址
wangying2016/CrawlGitHubForStar
相关文章推荐
- Web Scraping with Python: 使用 Python 爬 CSDN 博客
- Web Scraping with Python: 使用 Python 爬 Baidu 关键词
- Web Scraping with Python:使用 Selenium 给当前网页截屏
- Web Scraping with Python: 使用 Python 下载 CSDN 博客图片
- Web Scraping with Python:使用 Python 导出 CSDN 博客全部文章(保留样式)和附带图片
- [翻译]<Web Scraping with Python>Chapter 0.前言
- Web Scraping with Python 学习爬虫
- 阅读OReilly.Web.Scraping.with.Python.2015.6笔记---BeautifulSoup---findAll
- Web Scraping with Python
- Web Scraping with Python 学习笔记8
- 使用R语言和XML包抓取网页数据-Scraping data from web pages in R with XML package
- [翻译]<Web Scraping with Python>Chapter 2.高级HTML解析
- 阅读OReilly.Web.Scraping.with.Python.2015.6笔记---Crawl
- Web scraping with Python (part II) « Jean, aka Sig(gg)
- 阅读OReilly.Web.Scraping.with.Python.2015.6笔记---找出网页中所有的href
- 网络爬虫 HTML的高级解析 <web scraping with python>第二章
- Web Scraping with Python 读书笔记
- Web Scraping with Python 学习笔记9
- 首部讲Python爬虫电子书 Web Scraping with Python
- 《Web Scraping with Python》读书笔记