您的位置：首页 > 理论基础 > 计算机网络

专题二：HTTP协议详解

2013-03-25 19:37 267 查看

一、HTTP协议的简介

HTTP中文为超文本传输协议，从名字上很容易理解，Http协议就是将超文本标记语言的文档（即Html文档）从web服务传送到客户端的浏览器。它属于一个应用层的协议。

HTTP协议的主要特点可概括如下：

1.支持客户/服务器模式。

2.简单快速：客户向服务器请求服务时，只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST。每种方法规定了客户与服务器联系的类型不同。由于HTTP协议简单，使得HTTP服务器的程序规模小，因而通信速度很快。

3.灵活：HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type加以标记。

4.无连接：无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的请求，并收到客户的应答后，即断开连接。采用这种方式可以节省传输时间。

5.无状态：HTTP协议是无状态协议。无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息，则它必须重传，这样可能导致每次连接传送的数据量增大。另一方面，在服务器不需要先前信息时它的应答就较快。

HTTP URL (URL是一种特殊类型的URI，包含了用于查找某个资源的足够的信息)的格式如下：

[abs_path/]http://host[":"port][abs_path]

http表示要通过HTTP协议来定位网络资源；host表示合法的Internet主机域名或者IP地址；port指定一个端口号，为空则使用缺省端口80；abs_path指定请求资源的URI；如果URL中没有给出abs_path，那么当它作为请求URI时，必须以“/”的形式给出，通常这个工作浏览器自动帮我们完成。

二、网络的工作过程

当用户要访问网络中的某个网页时，大致要经过以下几个步骤：

用户首先要确定网页文件所在的URL（统一资源定位符，也就是网页在网络上的家庭住址，通过这个地址就可以找到这个网页）如www.cnblogs.com
浏览器向DNS(域名服务器)发出请求，告诉DNS说："我要把www.cnblogs.com转化为它所定义的IP地址",这里可以简单把DNS理解为一个字典，知道域名就可以知道域名对于的IP地址，他们有这个一个映射的关系
DNS收到请求后就开始查询，查到后向浏览器返回结果。如域名为www.cnblogs.com对应的IP地址为61.155.169.116
知道IP地址后，浏览器向IP地址为61.155.169.116的主机发出与端口号80建议一条TCP连接请求（HTTP协议是建立在传输层TCP的基础上的），80端口是服务器提供web服务的默认端口
建立连接后，浏览器发出一条HTTP请求，如 GET http://www.cnblogs.com/ HTTP/1.1
当域名为www.cnblogs.com的服务器接受到请求后，向浏览器发送一个html文件
文件发送完后，由服务器主动关闭TCP连接。
浏览器接收传送来的页面并显示
如果Html文件中包含图片，还要与服务器再次建立一个TCP连接，以便可以下载图片

上面介绍的步骤中，浏览器发出一个请求后，如何把一个服务器上的HTML文档下载到请求网页的主机上呢？这个过程就是由HTTP完成，即完成超文本文件的传送，HTTP协议是web服务器的基础。

三、HTTP请求

Http请求由三部分组成：请求行、请求头和请求数据，一个HTTP请求的格式一般如下：

?

HTTP请求的方法如下表：

方法	描述
Get	返回URL所指的文档，一般用来请求下载Web网页
Head	请求文档头，它类似Get方法，只是Web服务器返回指定文档的首部信息
Post	它与Get方法相反，请求服务器接受指定文档，但它不替换已有的文档，只是将新数据附加在它的后面
Put	它与Get方法类似，用从客户端传送的数据取代指定文档中的内容，使客户可以向远程Web服务器传送网页等文件
Delete	请求服务器删除指定的页面
Options	允许客户端查看服务器的性能
Trace	用于测试允许客户端查看的消息回收过程

经常使用的是Get和Post方法，当使用Get方法发出请求时，请求数据为空，所以此时的HTTP请求行就由两部分组成：请求行和请求头信息，下面我们形象看看具体的HttP的实例：

当在浏览器中地址栏里面输入：www.cnblogs.com，此时我们相当于发出一个HTTP请求，具体为：

并且从图中可以看出网页中含有图片脚本等文件时，客户端会继续与服务器发出请求，请求所需要的图片和脚本文件。

补充：经一位朋友的留言中，在这里我补充下，现在通常是只建立一个TCP连接，通过HTPP 请求头的Connetion字段来指明，当服务器收到附带有Connection: Keep-Alive的请求时，它也会在响应头中添加一个同样的字段来使用Keep-Alive。这样一来，客户端和服务器之间的HTTP连接就会被保持，不会断开，（一些特殊情况除外）当客户端发送另外一个请求时，就使用这条已经建立的连接。

请求行以一个方法符号开头，以空格分开，后面跟着请求的URI和协议的版本，格式如下：Method Request-URI HTTP-Version CRLF

其中 Method表示请求方法；Request-URI是一个统一资源标识符；HTTP-Version表示请求的HTTP协议版本；CRLF表示回车和换行（除了作为结尾的CRLF外，不允许出现单独的CR或LF字符）。

下面介绍下请求头的信息：

Accept:表示客户端接收的数据类型。例如，Accept：text/html表示客户端可接收HTML类型的文本

User Agent:表示客户端软件类型

Referer:表示的是上一连接的url，如跳转到本页面的上一页面url。

上图是一个通过Get方法把一个HTML文件下载到本例浏览器中显示的过程，当我们在博客园主页面点登陆后输入用户名和密码后点确认按钮后，此时我们发出的HTTP的请求是通过Post方法，下面是一个截图：

从图中可以看出，通过Post方法发出的HTTP请求中有一个空行（空行后为请求数据），而Get方法发出的请求中没有。

四、HTTP响应

同样，Http响应也是由三部分组成：状态行，响应头和响应数据组成，Http响应格式如下：

?

状态行格式如下：

HTTP-Version Status-Code Reason-Phrase CRLF

其中，HTTP-Version表示服务器HTTP协议的版本；Status-Code表示服务器发回的响应状态代码；Reason-Phrase表示状态代码的文本描述。如HTTP/1.1 200
OK.

状态代码有三位数字组成，第一个数字定义了响应的类别，且有五种可能取值：

1xx：指示信息--表示请求已接收，继续处理

2xx：成功--表示请求已被成功接收、理解、接受

3xx：重定向--要完成请求必须进行更进一步的操作

4xx：客户端错误--请求有语法错误或请求无法实现

5xx：服务器端错误--服务器未能实现合法的请求

具体响应代码的说明见下：

HTTP响应头用于服务器向客户端提供请求文档信息或服务端的状态信息，如图：

五、利用telnet观察http协议的通讯过程

实验目的及原理：

利用MS的telnet工具，通过手动输入http请求信息的方式，向服务器发出请求，服务器接收、解释和接受请求后，会返回一个响应，该响应会在telnet窗口上显示出来，从而从感性上加深对http协议的通讯过程的认识。

实验步骤：

1、打开telnet

1.1 打开telnet

运行-->cmd-->telnet

1.2 打开telnet回显功能

set localecho

2、连接服务器并发送请求

2.1 open www.guet.edu.cn 80
//注意端口号不能省略

HEAD /index.asp HTTP/1.0

Host:www.guet.edu.cn

/*我们可以变换请求方法,请求桂林电子主页内容,输入消息如下*/

open www.guet.edu.cn 80

GET /index.asp HTTP/1.0 //请求资源的内容

Host:www.guet.edu.cn

2.2 open www.sina.com.cn 80
//在命令提示符号下直接输入telnet www.sina.com.cn 80

HEAD /index.asp HTTP/1.0

Host:www.sina.com.cn

3 实验结果：

3.1 请求信息2.1得到的响应是:

HTTP/1.1 200 OK //请求成功

Server: Microsoft-IIS/5.0 //web服务器

Date: Thu,08 Mar 200707:17:51 GMT

Connection: Keep-Alive

Content-Length: 23330

Content-Type: text/html

Expries: Thu,08 Mar 2007 07:16:51 GMT

Set-Cookie: ASPSESSIONIDQAQBQQQB=BEJCDGKADEDJKLKKAJEOIMMH; path=/

Cache-control: private

//资源内容省略

3.2 请求信息2.2得到的响应是:

HTTP/1.0 404 Not Found //请求失败

Date: Thu, 08 Mar 2007 07:50:50 GMT

Server: Apache/2.0.54 <Unix>

Last-Modified: Thu, 30 Nov 2006 11:35:41 GMT

ETag: "6277a-415-e7c76980"

Accept-Ranges: bytes

X-Powered-By: mod_xlayout_jh/0.0.1vhs.markII.remix

Vary: Accept-Encoding

Content-Type: text/html

X-Cache: MISS from zjm152-78.sina.com.cn

Via: 1.0 zjm152-78.sina.com.cn:80<squid/2.6.STABLES-20061207>

X-Cache: MISS from th-143.sina.com.cn

Connection: close

失去了跟主机的连接

按任意键继续...

4 .注意事项：1、出现输入错误，则请求不会成功。

2、报头域不分大小写。

3、更深一步了解HTTP协议，可以查看RFC2616，在http://www.letf.org/rfc上找到该文件。

4、开发后台程序必须掌握http协议

六、HTTP协议相关技术补充

1、基础：

高层协议有：文件传输协议FTP、电子邮件传输协议SMTP、域名系统服务DNS、网络新闻传输协议NNTP和HTTP协议等

中介由三种：代理(Proxy)、网关(Gateway)和通道(Tunnel)，一个代理根据URI的绝对格式来接受请求，重写全部或部分消息，通过 URI的标识把已格式化过的请求发送到服务器。网关是一个接收代理，作为一些其它服务器的上层，并且如果必须的话，可以把请求翻译给下层的服务器协议。一个通道作为不改变消息的两个连接之间的中继点。当通讯需要通过一个中介(例如：防火墙等)或者是中介不能识别消息的内容时，通道经常被使用。

代理(Proxy)：一个中间程序，它可以充当一个服务器，也可以充当一个客户机，为其它客户机建立请求。请求是通过可能的翻译在内部或经过传递到其它的服务器中。一个代理在发送请求信息之前，必须解释并且如果可能重写它。代理经常作为通过防火墙的客户机端的门户，代理还可以作为一个帮助应用来通过协议处理没有被用户代理完成的请求。

网关(Gateway)：一个作为其它服务器中间媒介的服务器。与代理不同的是，网关接受请求就好象对被请求的资源来说它就是源服务器；发出请求的客户机并没有意识到它在同网关打交道。

网关经常作为通过防火墙的服务器端的门户，网关还可以作为一个协议翻译器以便存取那些存储在非HTTP系统中的资源。

通道(Tunnel)：是作为两个连接中继的中介程序。一旦激活，通道便被认为不属于HTTP通讯，尽管通道可能是被一个HTTP请求初始化的。当被中继的连接两端关闭时，通道便消失。当一个门户(Portal)必须存在或中介(Intermediary)不能解释中继的通讯时通道被经常使用。

2、协议分析的优势—HTTP分析器检测网络攻击

以模块化的方式对高层协议进行分析处理，将是未来入侵检测的方向。

HTTP及其代理的常用端口80、3128和8080在network部分用port标签进行了规定

3、HTTP协议Content Lenth限制漏洞导致拒绝服务攻击

使用POST方法时，可以设置ContentLenth来定义需要传送的数据长度，例如ContentLenth:999999999，在传送完成前，内存不会释放，攻击者可以利用这个缺陷，连续向WEB服务器发送垃圾数据直至WEB服务器内存耗尽。这种攻击方法基本不会留下痕迹。
http://www.cnpaf.net/Class/HTTP/0532918532667330.html
4、利用HTTP协议的特性进行拒绝服务攻击的一些构思

服务器端忙于处理攻击者伪造的TCP连接请求而无暇理睬客户的正常请求（毕竟客户端的正常请求比率非常之小），此时从正常客户的角度看来，服务器失去响应，这种情况我们称作：服务器端受到了SYNFlood攻击（SYN洪水攻击）。

而Smurf、TearDrop等是利用ICMP报文来Flood和IP碎片攻击的。本文用“正常连接”的方法来产生拒绝服务攻击。

19端口在早期已经有人用来做Chargen攻击了，即Chargen_Denial_of_Service，但是！他们用的方法是在两台Chargen 服务器之间产生UDP连接，让服务器处理过多信息而DOWN掉，那么，干掉一台WEB服务器的条件就必须有2个：1.有Chargen服务2.有HTTP 服务

方法：攻击者伪造源IP给N台Chargen发送连接请求（Connect），Chargen接收到连接后就会返回每秒72字节的字符流（实际上根据网络实际情况，这个速度更快）给服务器。

5、Http指纹识别技术

Http指纹识别的原理大致上也是相同的：记录不同服务器对Http协议执行中的微小差别进行识别.Http指纹识别比TCP/IP堆栈指纹识别复杂许多,理由是定制Http服务器的配置文件、增加插件或组件使得更改Http的响应信息变的很容易,这样使得识别变的困难；然而定制TCP/IP堆栈的行为需要对核心层进行修改,所以就容易识别.

要让服务器返回不同的Banner信息的设置是很简单的,象Apache这样的开放源代码的Http服务器,用户可以在源代码里修改Banner信息,然后重起Http服务就生效了；对于没有公开源代码的Http服务器比如微软的IIS或者是Netscape,可以在存放Banner信息的Dll文件中修改,相关的文章有讨论的,这里不再赘述,当然这样的修改的效果还是不错的.另外一种模糊Banner信息的方法是使用插件。

常用测试请求：

1：HEAD/Http/1.0发送基本的Http请求

2：DELETE/Http/1.0发送那些不被允许的请求,比如Delete请求

3：GET/Http/3.0发送一个非法版本的Http协议请求

4：GET/JUNK/1.0发送一个不正确规格的Http协议请求

Http指纹识别工具Httprint,它通过运用统计学原理,组合模糊的逻辑学技术,能很有效的确定Http服务器的类型.它可以被用来收集和分析不同Http服务器产生的签名。

七、总结

到这里这篇文章也算是说完了，HTTP协议只是应用层中协议的其中之一，应用层还有其他的一些协议，比如FTP（文件传输协议），SMTP(电子邮件协议)等，这些协议在后面都会有所介绍。后面一个专题打算应用HTTP协议的只是自定义一个简单的Web服务器来模拟我们平常在浏览器中输入网址后发送Http请求和服务器返回响应的过程。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航