您的位置：首页 > 理论基础 > 计算机网络

HTTP Headers 入门

2016-03-28 21:50 429 查看

HTTP Headers 入门

什么是HTTP Headers
HTTP是“Hypertext Transfer Protocol”的所写，整个www都在使用这种协定，几乎你在流览器里看到的大部分内容都是通过http协定来传输的，比如这篇文章。
HTTP Headers是HTTP请求和相应的核心，它承载了关于用户端流览器，请求页面，伺服器等相关的资讯。

示例
当你在流览器位址栏里键入一个url，你的流览器会将类似如下的http请求：

GET /tutorials/other/top-20-mysql-best-practices/ HTTP/1.1 (Request line)
Host: net.tutsplus.com
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.5 (.NET CLR 3.5.30729)
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept -Language: en-us,en;q=0.5
Accept-Encoding: gzip,deflate
Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7
Keep-Alive: 300
Connection: keep -alive
Cookie: PHPSESSID=r2t5uvjq435r4q7ib3vtdjq120
Pragma: no-cache
Cache-Control: no-cache

第一行被称为“Request Line” 它描述的是这个请求的基本资讯，剩下的就是HTTP headers了。
请求完成之后，你的流览器可能会收到如下的HTTP回应：

HTTP/1.x 200 OK (state line)
Transfer-Encoding: chunked
Date: Sat, 28 Nov 2009 04:36:25 GMT
Server: LiteSpeed
Connection: close
X-Powered-By: W3 Total Cache/0.8
Pragma: public
Expires : Sat, 28 Nov 2009 05:36:25 GMT
Etag: "pub1259380237;gz"
Cache-Control: max-age=3600, public
Content-Type: text/html; charset=UTF-8
Last-Modified: Sat, 28 Nov 2009 03:50:37 GMT
X-Pingback: http://net.tutsplus.com/xmlrpc.php Content-Encoding: gzip
Vary: Accept-Encoding, Cookie, User-Agent
<!-- ... rest of the html ... -->

第一行被称为“Status Line”，它之后就是http headers，空行完了就开始输出内容了（在这个案例中是一些html输出）。
但你查看页面源代码却不能看到HTTP headers，虽然它们连同你能看到的东西一起被传送至流览器。
这个HTTP请求也发出了一些其他资源的接收请求，例如图片，css档，js文件等等。
下面我们来看看细节。
怎样才能看到HTTP Headers
下面这些FireFox扩展能够帮助你分析HTTP headers：
1. firebug

2. Live
HTTP Headers

3. 在PHP中：
getallheaders()用来获取请求Header.你也可以使用$_SERVER阵列.
headers_list()用来获取回应Header.
文章下面将会看到一些使用php示范的例子。
HTTP Request 的结构

被称作“first line”的第一行包含三个部分：
“method” 表明这是何种类型的请求. 最常见的请求类型有GET, POST 和HEAD.
“path” 体现的是主机之后的路径. 例如，当你请求“http://net.tutsplus.com/tutorials/other/top-20-mysql-best-practices/”时, path 就会是“/ tutorials/other/top-20-mysql-best-practices/”.
“protocol” 包含有“HTTP” 和版本号, 目前流览器都会使用1.1.
剩下的部分每行都是一个“Name：Value”对。它们包含了各式各样关于请求和你流览器的资讯。
例如”User-Agent“就表明了你流览器版本和你所用的作业系统。
”Accept-Encoding“会告诉伺服器你的流览可以接受类似gzip的压缩输出。
这些headers大部分都是可选的。HTTP
请求甚至可以被精简成这样子：
GET /tutorials/other/top-20-mysql-best-practices/ HTTP/1.1
Host: net.tutsplus.com
并且你仍旧可以从伺服器收到有效的回应。
请求类型
三种最常见的请求类型是：GET，POST 和HEAD ，从html的编写过程中你可能已经熟悉了前两种。
GET ：获取一个文档
大部分被传输到流览器的html，images，js，css, … 都是通过GET方法发出请求的。它是获取资料的主要方法。
例如，要获取Nettuts+ 的文章，http request的第一行通常看起来是这样的：
GET /tutorials/other/top-20-mysql-best-practices/ HTTP/1.1
一旦html载入完成，流览器将会发送GET 请求去获取图片，就像下面这样：
GET /wp-content/themes/tuts_theme/images/header_bg_tall.png HTTP/1.1
表单也可以通过GET方法发送，下面是个例子：

<form action=”foo.php” method=”GET”>
First Name: <input name=”first_name” type=”text” />
Last Name: <input name=”last_name” type=”text” />
< input name=”action” type=”submit” value=”Submit” />
</form>

当这个表单被提交时，HTTP request 就会像这样：

GET /foo.php?first_name=John&last_name=Doe&action=Submit HTTP/1.1
…

你可以将表单输入通过附加进查询字串的方式发送至伺服器。
POST ：发送资料至伺服器
尽管你可以通过GET方法将资料附加到url中传送给伺服器，但在很多情况下使用POST发送资料给伺服器更加合适。通过GET发送大量资料是不现实的，它有一定的局限性。
用POST请求来发送表单数据是普遍的做法。我们来吧上面的例子改造成使用POST方式：

<form action=”foo.php” method=”POST”>
First Name: <input name=”first_name” type=”text” />
Last Name: <input name=”last_name” type=”text” />
< input name=”action” type=”submit” value=”Submit” />
</form>

提交这个表单会创建一个如下的HTTP 请求：

POST /foo.php HTTP/1.1
Host: localhost
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.5 (.NET CLR 3.5 .30729)
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-us,en;q=0.5
Accept-Encoding: gzip,deflate
Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7
Keep-Alive: 300
Connection: keep-alive
Referer: http://localhost/test.php Content-Type: application/ x-www-form-urlencoded
Content-Length: 43
first_name=John&last_name=Doe&action=Submit

这里有三个需要注意的地方：
第一行的路径已经变为简单的/foo.php , 已经没了查询字串。
新增了Content-Type 和Content-Lenght Header，它提供了发送资讯的相关资讯.
所有资料都在headers之后，以查询字串的形式被发送.
POST方式的请求也可用在AJAX，应用程式，cURL … 之上。并且所有的档上传表单都被要求使用POST方式。
HEAD ：接收Header资讯
HEAD和GET很相似，只不过HEAD不接受HTTP回应的内容部分。当你发送了一个HEAD请求，那就意味着你只对HTTPHeader感兴趣，而不是文档本身。
这个方法可以让流览器判断页面是否被修改过，从而控制缓存。也可判断所请求的文档是否存在。
例如，假如你的网站上有很多链结，那么你就可以简单的给他们分别发送HEAD请求来判断是否存在死链，这比使用GET要快很多。
http 回应结构
当流览器发送了HTTP请求之后，伺服器就会通过一个HTTP response来回应这个请求。如果不关心内容，那么这个请求看起来会是这样的：

第一个有价值的资讯就是协定。目前伺服器都会使用HTTP/1.x
或者HTTP/1.1。
接下来一个简短的资讯代表状态。代码200意味着我们的请求已经发送成功了，伺服器将会返回给我们所请求的文档，在Header资讯之后。
我们都见过“404”页面。当我向伺服器请求一个不存在的路径时，伺服器就用用404来代替200回应我们。
余下的回应内容和HTTP请求相似。这些内容是关于伺服器软体的，页面/档何时被修改过，mime
type 等等…
同样，这些Header资讯也是可选的。
HTTP 状态码
200 用来表示请求成功.
300 来表示重定向.
400 用来表示请求出现问题.
500 用来表示伺服器出现问题.
200 成功（OK）
前文已经提到，200是用来表示请求成功的。
206 部分内容（Partial Content）
如果一个应用只请求某范围之内的档，那么就会返回206.
这通常被用来进行下载管理，中断点续传或者档分块下载。
404 没有找到（Not Found）

很容易理解
401 未经授权（Unauthorized）
受密码保护的页面会返回这个状态。如果你没有输入正确的密码，那么你就会在流览器中看到如下的资讯：

注意这只是受密码保护页面，请求输入密码的弹出框是下面这个样子的：

403 被禁止（Forbidden）
如果你没有许可权访问某个页面，那么就会返回403状态。这种情况通常会发生在你试图打开一个没有index页面的档夹。如果伺服器设置不允许查看目录内容，那么你就会看到403错误。
其他一些方式也会发送许可权限制，例如你可以通过IP位址进行阻止，这需要一些htaccess的协助。

order allow,deny
deny from 192.168.44.201
deny from 224.39.163.12
deny from 172.16.7.92
allow from all

302 （或307）临时移动（Moved Temporarily）和301永久移动（Moved Permanently）
这两个状态会出现在流览器重定向时。例如，你使用了类似bit.ly
的网址缩短服务。这也是它们如何获知谁点击了他们链结的方法。
302和301对于流览器来说是非常相似的，但对于搜索引擎爬虫就有一些差别。打个比方，如果你的网站正在维护，那么你就会将用户端流览器用302重定向到另外一个位址。搜索引擎爬虫就会在将来重新索引你的页面。但是如果你使用了301重定向，这就等于你告诉了搜索引擎爬虫：你的网站已经永久的移动到了新的位址。
500 伺服器错误（Internal Server Error）

这个代码通常会在页面脚本崩溃时出现。大部分CGI脚本都不会像PHP那样输出错误资讯给流览器。如果出现了致命的错误，它们只会发送一个500的状态码。这时需要查看伺服器错误日志来排错。
完整的列表
你可以在这里找到完整的HTTP状态码说明。
HTTP Headers 中的HTTP请求
现在我们来看一些在HTTP headers中常见的HTTP请求资讯。
所有这些Header资讯都可以在PHP的$_SERVER阵列中找到。你也可以用getallheaders()函数一次性获取所有的Header资讯。
Host
一个HTTP请求会发送至一个特定的IP位址，但是大部分伺服器都有在同一IP位址下托管多个网站的能力，那么伺服器必须知道流览器请求的是哪个功能变数名称下的资源。
Host: rlog.cn
这只是基本的主机名，包含功能变数名称和子级功能变数名称。
在PHP中，可以通过$_SERVER['HTTP_HOST'] 或$_SERVER['SERVER_NAME']来查看。
User-Agent

User-Agent: Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.5 (.NET CLR 3.5.30729)

这个Header可以携带如下几条资讯：
流览器名和版本号.
作业系统名和版本号.
默认语言.
这就是某些网站用来收集访客资讯的一般手段。例如，你可以判断访客是否在使用手机访问你的网站，然后决定是否将他们引导至一个在低解析度下表现良好的移动网站。
在PHP中，可以通过$_SERVER['HTTP_USER_AGENT'] 来获取User-Agent

if ( strstr($_SERVER['HTTP_USER_AGENT'],'MSIE 6') ) {
echo "Please stop using IE6!";
}

Accept-Language
Accept-Language: en-us,en;q=0.5
这个资讯可以说明用户的默认语言设置。如果网站有不同的语言版本，那么就可以通过这个资讯来重定向用户的流览器。
它可以通过逗号分割来携带多国语言。第一个会是首选的语言，其他语言会携带一个“q”值，来表示用户对该语言的喜好程度（0~1）。
在PHP中用$_SERVER["HTTP_ACCEPT_LANGUAGE"] 来获取这一资讯。

if (substr($_SERVER['HTTP_ACCEPT_LANGUAGE'], 0, 2) == 'fr') {
header('Location: http://french.mydomain.com'); }

Accept-Encoding
Accept-Encoding: gzip,deflate
大部分的流览器都支援gzip压缩，并会把这一资讯报告给伺服器。这时伺服器就会压缩HTML发送给流览器。这可以减少近80%的档案大小，以节省下载时间和频宽。
在PHP中可以使用$_SERVER["HTTP_ACCEPT_ENCODING"]获取该资讯。然后调用ob_gzhandler()方法时会自动检测该值，所以你无需手动检测。

// enables output buffering
// and all output is compressed if the browser supports it
ob_start('ob_gzhandler');

If-Modified-Since
如果一个页面已经在你的流览器中被cache，那么你下次流览时流览器将会检测文档是否被修改过，那么它就会发送这样的Header：
If-Modified-Since: Sat, 28 Nov 2009 06:38:19 GMT
如果自从这个时间以来未被修改过，那么伺服器将会返回“304 Not Modified”，而且不会再返回内容。流览器将自动去缓存中读取内容
在PHP中，可以用$_SERVER['HTTP_IF_MODIFIED_SINCE'] 来检测。

// assume $last_modify_time was the last the output was updated
// did the browser send If-Modified-Since header?
if(isset($_SERVER['HTTP_IF_MODIFIED_SINCE'])) {
// if the browser cache matches the modify time
if ($last_modify_time == strtotime($_SERVER['HTTP_IF_MODIFIED_SINCE'])) {
// send a 304 header, and no content
header("HTTP/1.1 304 Not Modified");
exit;
}
}

还有一个叫Etag的HTTP头资讯，它被用来确定缓存的资讯是否正确，稍后我们将会解释它。
Cookie
顾名思义，他会送出流览器中存储的Cookie资讯给伺服器。
Cookie: PHPSESSID=r2t5uvjq435r4q7ib3vtdjq120; foo=bar
它是用分号分割的一组名值对。Cookie也可以包含session
id。
在PHP中，单一的Cookie可以访问$_COOKIE阵列获得。你可以直接用$_SESSION
array获取session变数。如果你需要session id，那么你可以使用session_id()函数代替cookie。

echo $_COOKIE['foo'];
// output: bar
echo $_COOKIE['PHPSESSID'];
// output: r2t5uvjq435r4q7ib3vtdjq120
session_start();
echo session_id();
// output: r2t5uvjq435r4q7ib3vtdjq120

Referer
顾名思义, Header将会包含referring url信息。
例如，我访问Nettuts+的主页并点击了一个链结，这个Header资讯将会发送到流览器：
Referer: http://net.tutsplus.com/ 在PHP中，可以通过$_SERVER['HTTP_REFERER'] 获取该值。

if (isset($_SERVER['HTTP_REFERER'])) {
$url_info = parse_url($_SERVER['HTTP_REFERER']);
// is the surfer coming from Google?
if ($url_info['host'] == 'www .google.com') {
parse_str($url_info['query'], $vars);
echo "You searched on Google for this keyword: ". $vars['q'];
}
}
// if the referring url was :
// http://www.google.com/search?source=ig&hl=en&rlz=&=&q=http+headers&aq=f&oq=&aqi=g-p1g9 / / the output will be:
// You searched on Google for this keyword: http headers

You may have noticed the word “referrer” is misspelled as “referer”. Unfortunately it made into the official HTTP specifications like that
and got stuck.
Authorization
当一个页面需要授权，流览器就会弹出一个登入视窗，输入正确的帐号后，流览器会发送一个HTTP请求，但此时会包含这样一个Header：
Authorization: Basic bXl1c2VyOm15cGFzcw==
包含在Header的这部分资讯是base64 encoded。例如，base64_decode('bXl1c2VyOm15cGFzcw==')
会被转化为'myuser:mypass' 。
在PHP中，这个值可以用$_SERVER['PHP_AUTH_USER'] 和$_SERVER['PHP_AUTH_PW'] 获得。
更多细节我们会在WWW-Authenticate部分讲解。
HTTP Headers 中的HTTP回应
现在让我了解一些常见的HTTP Headers中的HTTP回应资讯。
在PHP中，你可以通过header()来设置Header回应资讯。PHP已经自动发送了一些必要的Header资讯，如载入的内容，设置cookies等等…你可以通过headers_list()函数看到已发送和将要发送的Header资讯。你也可以使用headers_sent()函数来检查Header资讯是否已经被发送。
Cache-Control
w3.org 的定义是：“The Cache-Control general-header field is used to specify directives which MUST be obeyed by all caching mechanisms along the
request/response chain.” 其中“caching mechanisms” 包含一些你ISP可能会用到的闸道和代理资讯。
例如：
Cache-Control: max-age=3600, public
“public”意味着这个回应可以被任何人cache，“max-age” 则表明了该cache有效的秒数。允许你的网站被cache降大大减少下载时间和带宽，同时也提高的流览器的载入速度。
也可以通过设置“no-cache” 指令来禁止缓存：
Cache-Control: no-cache
更多详情请参见w3.org。
Content-Type
这个Header包含了文档的”mime-type”。流览器将会依据该参数决定如何对文档进行解析。例如，一个html页面（或者有html输出的php页面）将会返回这样的东西：
Content-Type: text/html; charset=UTF-8
'text' 是文档类型，'html'则是文档子类型。这个Header还包括了更多资讯，例如charset。
如果是一个图片，将会发送这样的回应：
Content-Type: image/gif
流览器可以通过mime-type来决定使用外部程式还是自身扩展来打开该文档。如下的例子降调用Adobe
Reader：
Content-Type: application/pdf
直接载入，Apache通常会自动判断文档的mime-type并且添加合适的资讯到Header去。并且大部分流览器都有一定程度的容错，在Header未提供或者错误提供该资讯的情况下它会去自动检测mime-type。
你可以在这里找到一个常用mime-type列表。
在PHP中你可以通过finfo_file()来检测档的ime-type。
Content-Disposition
这个Header资讯将告诉流览器打开一个档下载视窗，而不是试图解析该回应的内容。例如：
Content-Disposition: attachment; filename=”download.zip”
他会导致流览器出现这样的对话方块：

注意，适合它的Content-Type头资讯同时也会被发送
Content-Type: application/zip
Content-Disposition: attachment; filename=”download.zip”
Content-Length
当内容将要被传输到流览器时，伺服器可以通过该Header告知流览器将要传送档的大小（bytes）。
Content-Length: 89123
对于档下载来说这个资讯相当的有用。这就是为什么流览器知道下载进度的原因。
例如，这里我写了一段虚拟脚本，来模拟一个慢速下载。

// it's a zip file
header('Content-Type: application/zip');
// 1 million bytes (about 1megabyte)
header('Content-Length: 1000000');
// load a download dialogue, and save it as download.zip
header('Content-Disposition: attachment; filename="download.zip"');
// 1000 times 1000 bytes of data
for ($i = 0; $i < 1000; $i++) {
echo str_repeat( ".",1000);
// sleep to slow down the download
usleep(50000);
}

结果将会是这样的：

现在，我将Content-LengthHeader注释掉：

// it's a zip file
header('Content-Type: application/zip');
// the browser won't know the size
// header('Content-Length: 1000000');
// load a download dialogue, and save it as download.zip
header('Content-Disposition: attachment; filename="download.zip"');
// 1000 times 1000 bytes of data
for ($i = 0; $i < 1000; $i++) {
echo str_repeat(".",1000);
// sleep to slow down the download
usleep(50000);
}

结果就变成了这样：

这个流览器只会告诉你已下载了多少，但不会告诉你总共需要下载多少。而且进度条也不会显示进度。
Etag
这是另一个为缓存而产生的Header资讯。它看起来会是这样：
Etag: “pub1259380237;gz”
伺服器可能会将该资讯和每个被发送档一起回应给流览器。该值可以包含文档的最后修改日期，档大小或者档校验和。流览会把它和所接收到的文档一起缓存。下一次当流览器再次请求同一档时将会发送如下的HTTP请求：
If-None-Match: “pub1259380237;gz”
如果所请求的文档Etag值和它一致，伺服器将会发送304状态码，而不是200。并且不返回内容。流览器此时就会从缓存载入该档。
Last-Modified
顾名思义，这个Header资讯用GMT格式表明了文档的最后修改时间：
Last-Modified: Sat, 28 Nov 2009 03:50:37 GMT
$modify_time = filemtime($file);
header(“Last-Modified: ” . gmdate(“D, d MYH:i:s”, $modify_time) . ” GMT”);
它提供了另一种缓存机制。流览器可能会发送这样的请求：
If-Modified-Since: Sat, 28 Nov 2009 06:38:19 GMT
在If-Modified-Since一节我们已经讨论过了。
Location
这个Header是用来重定向的。如果回应代码为301
或者302 ，伺服器就必须发送该Header。例如，当你访问http://www.nettuts.com 时流览器就会收到如下的回应：
HTTP/1.x 301 Moved Permanently
…
Location: http://net.tutsplus.com/ …
在PHP中你可以通过这种方式对访客重定向：
header('Location: http://net.tutsplus.com/'); 默认会发送302状态码，如果你想发送301，就这样写：
header('Location: http://net.tutsplus.com/', true, 301);
Set-Cookie
当一个网站需要设置或者更新你流览的cookie资讯时，它就会使用这样的Header：

Set-Cookie: skin=noskin; path=/; domain=.amazon.com; expires=Sun, 29-Nov-2009 21:42:28 GMT
Set-Cookie: session-id=120-7333518-8165026; path= /; domain=.amazon.com; expires=Sat Feb 27 08:00:00 2010 GMT

每个cookie会作为单独的一条Header资讯。注意，通过js设置cookie将不会出现在HTTP头中。
在PHP中，你可以通过setcookie()函数来设置cookie，PHP会发送合适的HTTP头。
setcookie(“TestCookie”, “foobar”);
它会发送这样的头资讯：
Set-Cookie: TestCookie=foobar
如果未指定到期时间，cookie就会在流览器关闭后被删除。
WWW-Authenticate
一个网站可能会通过HTTP发送这个Header资讯来验证用户。当流览器看到Header有这个回应时就会打开一个弹出窗。
WWW-Authenticate: Basic realm=”Restricted Area”
它会看起来像这样：

在PHP手册的一章中就有一段简单的代码演示了如果用PHP做这样的事情：

if (!isset($_SERVER['PHP_AUTH_USER'])) {
header('WWW-Authenticate: Basic realm="My Realm"');
header('HTTP/1.0 401 Unauthorized');
echo 'Text to send if user hits Cancel button';
exit;
} else {
echo “<p>Hello {$_SERVER['PHP_AUTH_USER']}.</p>”;
echo “<p>You entered {$_SERVER['PHP_AUTH_PW']} as your password.</p>”;}

Content-Encoding
这个Header通常会在返回内容被压缩时设置。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航