您的位置:首页 > 编程语言 > Python开发

浅谈python,python urllib及注意事项

2015-06-02 10:12 671 查看
python一般情况下我们使用的2.7版本,可以在官方https://www.python.org/downloads/下载,它的安装还是很简单的。
tar包下载后可以直接解压,configure、make、make install即可。

这里要强调一下的是安装Python后很有可能linux的yum就不能正常使用了。
一方面我们可以改下yum可执行文件的内容,文件位置为/usr/bin/yum,

第一行#!/usr/bin/python
改成
#!/usr/bin/python2.4(python2.6),也就是系统原来的python。

另外一种是把新按装的Python可执行文件ln到/usr/local/bin这里,其它的也可以不用更改。
这样即不会影响到yum的使用,也不会影响新安装版本的使用。

如果有特殊的网站建设需求那就根据情况来设置环境变量吧。

一般我们使用的python的开发工具或者vi来编辑项目或文件。所以python的自动补齐并不是很需要,不过我在这还是网站建设简单的说一下。

因为我使用的是macos,所以这个自动补齐文件如下。其他的网络公司系统可以自己再找下。
我这个tab.py文件是放到了/Library/Python/2.7/site-packages这里。文件位置APP开发也是根据实际情况来更改
import rlcompleter
import readline
import atexit
import os
 
if 'libedit' in readline.__doc__:
    readline.parse_and_bind('bind ^I rl_complete')
else:
    readline.parse_and_bind('tab: complete')

histfile = os.path.join(os.environ['HOME'], '.pyhist')

try:
    readline.read_history_file(histfile)
except IOError:
        pass

atexit.register(readline.write_history_file, histfile)
del readline, rlcompleter, histfile, os

tab的使用方法也简单

[root@liuxin's Air site-packages]# python
Python 2.7.6 (default, Sep  9 2014, 15:04:36) 
[GCC 4.2.1 Compatible Apple LLVM 6.0 (clang-600.0.39)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import os
>>> import tab
>>> os.
Display all 234 possibilities? (y or n) 
 

接着说下类似yum的工具来安装第三方python包—easy_insall。只不过yum是centos用的,eeasy_insall是Python用的。easy_install是由PEAK(Python Enterprise Application Kit)开发的setuptools包里网页设计带的一个命令,所以使用easy_install实际上是在调用setuptools来完成安装模块的工作。

它的安装方便也非常的简单,安装方式如下。
yum install python-setuptools python-setuptools-devel 
或者wget --no-check-certificate https://pypi.python.org/packages/2.6/s/setuptools/setuptools-0.6c11-py2.6.egg网页制作版本可以到官网更新)
sudo sh ./setuptools-0.6c11-py2.6.egg

它的使用主要是两个方面
安装模块
  easy_install package-name(比如 easy_install redis)
模块卸载
  easy_install -m package-name (比如easy_install -m redis)

  easy_install -m 包名,可以卸载软件包,但是卸载后网站制作还要手动删除遗留文件。

另一个和easy_install的工具是pip
可以在https://pypi.python.org/pypi/pip#downloads 这里下载
下载后解压进入目录,python setup.py install即可安装。

常用的就是查找与安装:使用search、install这两个参数网站制作公司

加外会有用到的是查看某个库的信息: 
pip show Jinja2

查看已经安装的库: 
pip list

获取过期的库:
pip list --outdated

pip install --upgrade pip 这个是对pip自己升级 

easy_install和pip虽然说方法不同,但安装的包是相同的,所以一般我使用的是pip。理由就是pip只按三个按键。

python urllib模块详解及实例

先看一个例子,这个例子把Google首页的html抓取下来并显示在控制台上:

import urllib 

print urllib.urlopen('http://www.google.com').read() 

# 别惊讶,整个程序确实只用了两行代码

import urllib

print urllib.urlopen('http://www.google.com').read()

urllib.urlopen(url[, data[, proxies]]) :

    创建企业网站建设一个表示远程url的类文件对象,然后像本地文件一样操作这个类文件对象来获取远程数据。参数url表示远程数据的路径,一般是网址;参数data表 示以post方式提交到url的数据(玩过web的人应该知道提交数据的两种方式:post与get。如果你不清楚,也不必太在意,一般情况下很少用到这
个参数);参数proxies用于设置代理(这里不详细讲网站建设公司怎么使用代理,感兴趣的看客可以去翻阅Python手册urllib模块)。urlopen返回 一个类文件对象,他提供了如下方法:

    read() , readline() , readlines() , fileno() ,close() :这些方法的使用方式与文件对象完全一样;

    info():返回一个httplib.HTTPMessage 对象,表示远程服务器返回的头信息;

    getcode():返回Http状态码。如果是http请求,200表示请求成功完成;404表示网址未找到;

    geturl():返回请求的url;

    下面来扩充一下做网站上面的例子,看官可以运行一下这个例子,加深对urllib的印象:

google = urllib.urlopen('http://www.google.com') 

print 'http header:\n', google.info() 

print 'http status:', google.getcode() 

print 'url:', google.geturl() 

for line in google: # 就像在操作本地文件 

    print line, 

google.close() 

google = urllib.urlopen('http://www.google.com')

print 'http header:\n', google.info()

print 'http status:', google.getcode()

print 'url:', google.geturl()

for line in google: # 就像在操作本地文件

    print line,

google.close()

urllib.urlretrieve(url[, filename[, reporthook[, data]]]):

    urlretrieve方法直接将远程数据下载到本地建网站。参数filename指定了保存到本地的路径(如果未指定该参数,urllib会生成一个临时文件
来保存数据);参数reporthook是一个回调函数,当连接上服务器、以及相应的数据块传输完毕的时候会触发该回调。我们可以利用这个回调函 数来显示当前的下载进度,下面的例子会展示。参数data指post到服务器的数据。该方法返回一个包含两个元素的元组(filename, headers),filename表示保存到本地的路径,header表示服务器的响应头。下面通过网站设计例子来演示一下这个方法的使用,这个例子将新浪首页
html抓取到本地,保存在D:\sina.html文件中,同时显示建设网站下载的进度。

def cbk(a, b, c): 

    '''''回调函数

    @a: 已经下载网站设计公司的数据块

    @b: 数据块的大小

    @c: 远程文件的大小

    ''' 

    per = 100.0 * a * b / c 

    if per > 100: 

        per = 100 

    print '%.2f%%' % per 

 

url = 'http://www.sina.com.cn' 

local = 'd:\\sina.html' 

urllib.urlretrieve(url, local, cbk) 

def cbk(a, b, c):

    '''回调函数

    @a: 已经下载的数据块

    @b: 数据块的大小

    @c: 远程文件的大小

    '''

    per = 100.0 * a * b / c

    if per > 100:

        per = 100

    print '%.2f%%' % per

url = 'http://www.sina.com.cn'

local = 'd:\\sina.html'

urllib.urlretrieve(url, local, cbk)

    上面设计公司介绍的两个方法是urllib中最常用的方法,这些方法在获取远程数据的时候,内部会使用URLopener或者 FancyURLOpener类。作为urllib的使用者,我们很少会用到这两个类,这里我不想多讲。如果对urllib的实现感兴趣, 或者希望urllib支持更多的协议,可以研究这两个类。在Python手册中,urllib的作者还列出了这个模块的缺陷和不足,感兴趣的同学可以打开
Python手册了解一下。

    urllib中还提供了一些辅助方法,用于对url进行编码、解码。url中是不能出现一些特殊的符号的,有些符号有特殊的用途。我们知道以get方式提 交数据的时候,会在url中添加key=value这样的字符串,所以在value中是不允许有'=',因此要对其进行编码;与此同时服务器接收到这些参 数的时候,要进行解码,还原成原始的数据。这个时候,这些辅助方法会很有用:www.2cto.com

urllib.quote(string[, safe]):对字符串进行编码。参数safe指定了不需要编码的字符;

urllib.unquote(string) :对字符串进行解码;

urllib.quote_plus(string [ , safe ] ) :与urllib.quote类似,但这个方法用'+'来替换' ',而quote用' '来代替' '

urllib.unquote_plus(string ) :对字符串进行解码;

urllib.urlencode(query[,
doseq]):将dict或者包含两个元素的元组列表转换成url参数。例如 字典{'name': 'dark-bull', 'age': 200}将被转换为"name=dark-bull&age=200"

urllib.pathname2url(path):将本地路径转换成url路径;

编程过程中,多了解语言周边的一些知识,以及一些技巧,可以让你加速成为一个优秀的程序员。

对于Python程序员,你需要注意一下本文所提到的这些事情。 你也可以看看Zen of Python(Python之禅),这里面提到了一些注意事项,并配以示例,可以帮助你快速提高。

1. 漂亮胜于丑陋

实现一个功能:读取一列数据,只返回偶数并除以2。下面的代码,哪个更好一些呢?

halve_evens_only = lambda nums: map(lambda i: i/2, filter(lambda i: not i%2, nums))

VS

def halve_evens_only(nums):

    return [i/2 for i in nums if not i % 2]

2. 记住Python中非常简单的事情

# 交换两个变量

a, b = b, a

# 切片(slice)操作符中的step参数。(切片操作符在python中的原型是[start:stop:step],即:[开始索引:结束索引:步长值])

a = [1,2,3,4,5]

>>> a[::2]  # 遍历列表中增量为2的数据

[1,3,5]

# 特殊情况下,`x[::-1]`是实现x逆序的实用的方式

>>> a[::-1]

[5,4,3,2,1]

# 逆序并切片

>>> x[::-1]

[5, 4, 3, 2, 1]

>>> x[::-2]

[5, 3, 1]

3. 不要使用可变对象作为默认值

def function(x, l=[]):          #不要这样

def function(x, l=None):        # 好的方式

  if l is None:

l = []

这是因为当def声明被执行时,默认参数总是被评估。

4. 使用iteritems而不是items

iteritems 使用generators ,因此当通过非常大的列表进行迭代时,iteritems 更好一些。

d = {1: "1", 2: "2", 3: "3"}

for key, val in d.items()       # 当调用时构建完整的列表

for key, val in d.iteritems()   # 当请求时只调用值

5. 使用isinstance ,而不是type

# 不要这样做

if type(s) == type(""): ...

if type(seq) == list or \

type(seq) == tuple: ...

# 应该这样

if isinstance(s, basestring): ...

if isinstance(seq, (list, tuple)): ...

原因可参阅:stackoverflow

注意我使用的是basestring 而不是str,因为如果一个unicode对象是字符串的话,可能会试图进行网站运营检查。例如:

>>> a=u'aaaa'

>>> print isinstance(a, basestring)

True

>>> print isinstance(a, str)

False

这是因为在Python 3.0以下版本中,有两个字符串类型str 和unicode。

6. 了解各种容器

Python有各种容器数据类型,在特定的情况下,相比内置容器(如list 和dict ),这是更好的选择。

我敢肯定,大部分人不使用它。我身边一些粗心大意的人,一些可能会用网站优化下面的方式来写代码。

freqs = {}

for c in "abracadabra":

    try:

        freqs[c] += 1

    except:

        freqs[c] = 1

也有人会说下面是一个网站推广更好的解决方案:

freqs = {}

for c in "abracadabra":

    freqs[c] = freqs.get(c, 0) + 1

更确切来说,应该使用collection 类型defaultdict。

from collections import defaultdict

freqs = defaultdict(int)

for c in "abracadabra":

    freqs[c] += 1

其他容器:

namedtuple()    # 工厂函数,用于创建网络推广带命名字段的元组子类

deque           # 类似列表的容器,允许任意端快速附加和取出

Counter   # dict子类,用于哈希对象计数

OrderedDict   # dict子类,用于存储添加的命令记录

defaultdict   # dict子类,用于调用工厂函数,以补充网络优化缺失的值

7. Python中创建类的魔术方法(magic methods)

__eq__(self, other)      # 定义 == 运算符的行为

__ne__(self, other)      # 定义 != 运算符的行为

__lt__(self, other)      # 定义 < 运算符的行为

__gt__(self, other)      # 定义 > 运算符的行为

__le__(self, other)      # 定义 <= 运算符的行为

__ge__(self, other)      # 定义 >= 运算符的行为

8. 必要时使用Ellipsis(省略号“...”)

Ellipsis 是用来对高维数据结构进行切片的。作为切片(:)插入,来扩展多维切片到所有的维度。例如:

>>> from numpy import arange

>>> a = arange(16).reshape(2,2,2,2)

# 现在,有了一个4维矩阵2x2x2x2,如果选择4维矩阵中所有的首元素,你可以做网络营销使用ellipsis符号。

>>> a[..., 0].flatten()www.2cto.com

array([ 0,  2,  4,  6,  8, 10, 12, 14])

# 这相当于

>>> a[:,:,:,0].flatten()

array([ 0,  2,  4,  6,  8, 10, 12, 14])
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python