您的位置:首页 > 编程语言 > Python开发

python 爬虫基础学习

2016-12-13 23:34 309 查看
#编码格式


# -*- coding: UTF-8 -*-


python默认安装了pip,如果执行下面命令出现了不是内部命令的错误,可能是因为没配置pip的环境变量,路径在python安装目录下Script下

"""


识别网站所用技术 pip install builtwith


"""


# import builtwith


#


# print builtwith.parse(r"http://example.webscraping.com")


"""


查询网站所有者 pip install python-whois


"""


# import whois


#


# print whois.whois(r'chaoyanglang.cn')


"""


下载网页


"""


# import urllib2


#


#


# def download(url):


#     print  'Downloading:', url


#     try:


#         html = urllib2.urlopen(url).read()


#     except urllib2.URLError as e:


#         print 'Download error:', e.reason


#         html = None


#     return html


#


# print download(r"http://www.baidu.com")


"""


重新下载


"""


# import urllib2


#


#


# def download(url, num=2):


#


#     print 'Downloading:', url


#     try:


#         html = urllib2.urlopen(url).read()


#     except urllib2.URLError as e:


#         print 'Download error:', e.reason


#         html = None


#         if num > 0:


#             if hasattr(e, 'code') and 500 <= e.code < 600:


#                 return download(url, num-1)


#     return html


#


#


# print download(r"http://www.baidu.com/ss")


动手试试吧。

补充:python3.5.x版本可能不能运行,原因是builtwith引用了urllib2,而在pythin3.5中使用的是urllib,所以需要修改builtwith包中的import urllib2为 import urllib.request import urllib.error

并且将 urllib2.xxx 修改为urllib.request.xxx

在 html = response.read()下填写这行代码(原因:参数更改了,现在读取的是bytes-like的,但参数要求是chart-like)

html = html.decode(‘GBK’)

另因为python3.5print需要加括号,所以将print 修改为print()

重新运行..
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: