您的位置：首页 > 编程语言 > Python开发

Web Scraping with Python: 使用 Python 爬 GitHub Star 数

2017-10-24 20:47 901 查看

一、引言

很久没写博客了。并不是因为自己变懒惰了，而是自己开始了新的语言 Python 的学习。

三个月啃完了英文版的《Head First Python 2nd》，现在又在学习《Web Scraping with Python》了。之所以选择这本书而不是《Python CookBook》或者《Fluent Python》之类的进阶书籍，是因为我想要尽快的使用实例来锻炼自己使用 Python 的实际编程能力。

这里，在看完了《Web Scraping with Python》这本书的前 63 页后，我萌生了一个想法：

何不使用 Python 来爬一下指定用户的 GitHub 的 Star 数呢？

这是一个非常有用并且能够锻炼自己能力的小实例。

那么，接下来就开始吧：）

二、分析 GitHub

想要写一个爬虫来爬指定 GitHub 用户的 Star 数，我们首先要知道，我们需要什么信息：

1. 首先，我们要分析入口网址。比如说，我的 GitHub 用户名就是 wangying2016，那么对于用户名 wangying2016，GitHub 的对应于 repositories 的网址就是：

https://github.com/wangying2016?tab=repositories

可以看到的是，我们只需要知道了任意的用户名，就可以拼凑出其对应的 repositories 的网址了。其对应的网址内容如下：

2. 其次，我们还需要知道 star 对应的 html 标签特征是什么。我们需要能够找到这个页面里面的所有的 star，就必须要知道这个 star 标签的特征是什么。这里，我通过 Chrome 的开发者模式找到了 star 的标签样式：

<a class="muted-link mr-3" href="/wangying2016/Cef3-Soui-Demo/stargazers">
<svg aria-label="star" class="octicon octicon-star" height="16" role="img" version="1.1" viewBox="0 0 14 16"
width="14">
<path fill-rule="evenodd"
d="M14 6l-4.9-.64L7 1 4.9 5.36 0 6l3.6 3.26L2.67 14 7 11.67 11.33 14l-.93-4.74z"></path>
</svg>
2
</a>

这里可以看到，我们只需要找到那个特殊的 svg 标签，其属性值 aria-label 为 star 的即可，然后再找到 svg 的父标签 a，使用 a 获取其文本即可。相关操作如图：

3. 最后，不要忘了我们的 repositories 可能有多页，因此需要遍历各个仓库页。因此，这里需要找到我们的 next 按钮，通过该按钮的 a 标签获取到下一页的网址，然后打开下一页的网址再重复第 2 步的操作，直到找不到 next 按钮为止：

<a class="next_page" rel="next" href="/wangying2016?page=2&tab=repositories">Next</a>
<span class="next_page disabled">Next</span>

其中，a 标签是有下一页仓库页的样式，而 span 是没有下一页仓库页的样式，可见，我们只需要找到 a 标签其属性值 class 为 next_page 的即可。相关操作如下：

现在，我们已经具有了完成这个实例的所有需要的条件，那么，让我们开始编写代码吧！

三、我的第一个爬虫实例：）

这里，我使用了 urllib 和 BeautifulSoup 这两个库，前者用来打开网址，后者用来解析 html。

为了实现多个页面的遍历，我使用了 while break 的语法结构来模拟 do while 循环（Python 没有 do while 结构）。

另外，需要注意的是，在 star 数字较大的地方，比如说我们的 Linus 老爷：

他的 linux 项目的 star 数高达 51090 个，其中多了一个逗号来标记千位，这个逗号需要手动去掉以转换为 int 类型，此时就用到了 str 的 replace 方法，当然，这些都是比较细节的问题了。

最后一点，不能忘了异常处理。对于不能成功打开的网页，要能够提供出错信息。

最后，大胆的秀出我自己的代码吧：

from urllib.request import urlopen
from urllib.error import HTTPError
from bs4 import BeautifulSoup

userName = input()
url = userName + '?tab=repositories'
count = 0

while True:
# 1. Open repositories page.
try:
html = urlopen('https://github.com/' + url)
bsObj = BeautifulSoup(html)
except HTTPError as e:
print('open ' + 'https://github.com/' + url + ' failed.')
break

# 2. Count stars at one page.
for star in bsObj.findAll('svg', {'aria-label': 'star'}):
count += int(star.parent.get_text().replace(',',''))

# 3. Find next page.
nextPage = bsObj.find('a', {'class': 'next_page'})
if nextPage is None:
break
else:
url = nextPage.attrs['href']

print(userName + ' has ' + str(count) + ' stars.')

运行的时候，需要我们手动输入一个用户名，比如说：

wangying2016

显示：

再比如说 Linus 老爷：

torvalds

显示：

再比如说我输错了：

wojiubuxinyourenyong

显示：

哈哈，完结撒花：）

四、总结

初学 Python，代码有所稚嫩之处，望各位网友海涵：）

不过对于我来说，还是一次很不错的实践。

毕竟：

Life is short, I use Python!

ps: 想要获取工程文件的同学可以到点击这个网址

wangying2016/CrawlGitHubForStar

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： Python 爬虫 GitHub Star数 Crawl

相关文章推荐

新的分享

章节导航