您的位置：首页 > 编程语言 > Python开发

python 爬虫基础学习

2016-12-13 23:34 309 查看

#编码格式

# -*- coding: UTF-8 -*-

python默认安装了pip，如果执行下面命令出现了不是内部命令的错误,可能是因为没配置pip的环境变量，路径在python安装目录下Script下

"""

识别网站所用技术 pip install builtwith

"""

# import builtwith

# print builtwith.parse(r"http://example.webscraping.com")

"""

查询网站所有者 pip install python-whois

"""

# import whois

# print whois.whois(r'chaoyanglang.cn')

"""

下载网页

"""

# import urllib2

# def download(url):

#     print  'Downloading:', url

#     try:

#         html = urllib2.urlopen(url).read()

#     except urllib2.URLError as e:

#         print 'Download error:', e.reason

#         html = None

#     return html

# print download(r"http://www.baidu.com")

"""

重新下载

"""

# import urllib2

# def download(url, num=2):

#     print 'Downloading:', url

#     try:

#         html = urllib2.urlopen(url).read()

#     except urllib2.URLError as e:

#         print 'Download error:', e.reason

#         html = None

#         if num > 0:

#             if hasattr(e, 'code') and 500 <= e.code < 600:

#                 return download(url, num-1)

#     return html

# print download(r"http://www.baidu.com/ss")

动手试试吧。

补充：python3.5.x版本可能不能运行，原因是builtwith引用了urllib2，而在pythin3.5中使用的是urllib,所以需要修改builtwith包中的import urllib2为 import urllib.request import urllib.error

并且将 urllib2.xxx 修改为urllib.request.xxx

在 html = response.read()下填写这行代码（原因：参数更改了,现在读取的是bytes-like的,但参数要求是chart-like）

html = html.decode(‘GBK’)

另因为python3.5print需要加括号,所以将print 修改为print()

重新运行..

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航