python 爬虫基础学习
2016-12-13 23:34
309 查看
#编码格式
# -*- coding: UTF-8 -*-
python默认安装了pip,如果执行下面命令出现了不是内部命令的错误,可能是因为没配置pip的环境变量,路径在python安装目录下Script下
"""
识别网站所用技术 pip install builtwith
"""
# import builtwith
#
# print builtwith.parse(r"http://example.webscraping.com")
"""
查询网站所有者 pip install python-whois
"""
# import whois
#
# print whois.whois(r'chaoyanglang.cn')
"""
下载网页
"""
# import urllib2
#
#
# def download(url):
# print 'Downloading:', url
# try:
# html = urllib2.urlopen(url).read()
# except urllib2.URLError as e:
# print 'Download error:', e.reason
# html = None
# return html
#
# print download(r"http://www.baidu.com")
"""
重新下载
"""
# import urllib2
#
#
# def download(url, num=2):
#
# print 'Downloading:', url
# try:
# html = urllib2.urlopen(url).read()
# except urllib2.URLError as e:
# print 'Download error:', e.reason
# html = None
# if num > 0:
# if hasattr(e, 'code') and 500 <= e.code < 600:
# return download(url, num-1)
# return html
#
#
# print download(r"http://www.baidu.com/ss")
动手试试吧。
补充:python3.5.x版本可能不能运行,原因是builtwith引用了urllib2,而在pythin3.5中使用的是urllib,所以需要修改builtwith包中的import urllib2为 import urllib.request import urllib.error
并且将 urllib2.xxx 修改为urllib.request.xxx
在 html = response.read()下填写这行代码(原因:参数更改了,现在读取的是bytes-like的,但参数要求是chart-like)
html = html.decode(‘GBK’)
另因为python3.5print需要加括号,所以将print 修改为print()
重新运行..
相关文章推荐
- Python学习 第一天任务 (三:Python不止基础学习 继续安装爬虫环境的配置)
- Python基础学习-爬虫入门知识
- Python爬虫学习笔记之基础知识
- Python学习笔记(八)爬虫基础(正则和编解码)
- 【python学习】网络爬虫——基础案例教程
- Python爬虫基础学习,从一个小案例来学习xpath匹配方法
- python爬虫基础学习-01
- 关于Python学习1--爬虫基础
- python基础_Scrapy爬虫基础学习一
- Python基础学习----网页爬虫
- Python基础学习-爬虫小试2
- python基础学习-7(简单爬虫)
- 零基础学习python_爬虫(53课)
- 【python学习笔记】7:用python实现爬虫-基础
- python3 [入门基础实战] 爬虫入门之xpath的学习
- Python基础学习——正则表达式与第一个爬虫(requests)
- python3 [入门基础实战] 爬虫入门之智联招聘的学习(一)
- 零基础如何学习python爬虫,月薪2万轻轻松松
- Python网络爬虫基础知识学习
- python3 [入门基础实战] 爬虫入门之智联招聘的学习(一)