您的位置:首页 > 其它

文章标题

2017-01-25 16:42 176 查看
Url 通用资源标志符(Universal Resource Identifier)

URI有三部分组成,

访问资源的命名机制

存放资源的主机名

资源自身的名字

URL 统一资源定位符

采用URL可以用一种统一的格式来描述各种信息资源,包括文件,目录,服务器的地址等URL有三部分是组成

第一部分是协议

第二部分是存有该资源的主机IP地址(有时包括端口号)

第三部分是主机资源的具体地址,如目录和文件

第一部分与第二部分用://隔开,第二部分与第三部分用/隔开,第一部分与第二部分是不可缺少的,但是第三部分有时是可以忽略的。

使用超级文本协议的HTTP

URL表示文件时,服务器方式用file表示,后面有主机IP,文件的存取路径(即目录)和文件名等信息,有时可以省略文件名和目录,但是/不能省

* 爬虫最主要的处理对象是是URL*它根据URL地址获取所需要的文件内容,然后对它进行进一步的处理,因此准确地理解URL对理解网络爬虫至关重要

。所谓网页抓取就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端,然后读取服务器端响应的资源
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  url