您的位置:首页 > 其它

【学习笔记】深入浅出URL编码

2015-03-18 17:03 330 查看
深入浅出URL编码

一、问题:
编码问题是J***A初学者在web开发过程中经常会遇到问题,网上也有大量相关的文章介绍,但其中很多文章并没有对URL中使用了中文等非ASCII的字符造成服务器后台程序解析出现乱码的问题作出准确的解释和说明。本文将详细介绍由于在URL中使用了中文等非ASCII的字符造成乱码的问题。
1、在URL中中文字符通常出现在以下两个地方:

(1)、QueryString中的参数值,比如http://search.china.alibaba.com/search/offer_search.htm?keywords=中国

(2)、servletpath,比如:http://search.china.alibaba.com/selloffer/中国.html

2、出现乱码问题的原因主要是以下几方面:

(1)、浏览器:我们的客户端(浏览器)本身并没有遵循URI编码的规范(http://www.w3.org/International/O-URL-code.html)。

(2)、Servlet服务器:Servlet服务器的没有正确配置。

(3)、开发人员并不了解Servlet的规范和API的含义。
二、基础知识:

1、一个http请求经过的几个环节:

浏览器(iefirefox)【get/post】------------>Servlet服务器------------------------------->浏览器显示

编码解码成unicode,然后将显示的内容编码解码

(1)浏览器把URL(以及post提交的内容)经过编码后发送给服务器。

(2)这里的Servlet服务器实际上指的是由Servlet服务器提供的servlet实现ServletRequestWrapper,不同应用服务器的servlet实现不同,这些servlet的实现把这些内容解码转换为unicode,处理完毕后,然后再把结果(即网页)编码返回给浏览器。

(3)浏览器按照指定的编码显示该网页。
当对字符串进行编码和解码的时候都涉及到字符集,通常使用的字符集为ISO8859-1、GBK、UTF-8、UNICODE。

2、URL的组成:

域名:端口/contextPath/servletPath/pathInfo?queryString

说明:
1、ContextPath是在Servlet服务器的配置文件中指定的。

对于weblogic:

contextPath是在应用的weblogic.xml中配置。

<context-root>/</context-root>



对于tomcat:

contextPath是在server.xml中配置。

<Contextpath="/"docBase="D:/server/blog.war"debug="5"reloadable="true"crossContext="true"/>
对于jboos:

contextPath是在应用的jboss-web.xml中配置。

<jboss-web>

<context-root>/</context-root>

</jboss-web>
2、ServletPath是在应用的web.xml中配置。

<servlet-mapping>

<servlet-name>Example</servlet-name>

<url-pattern>/example/*</url-pattern>

</servlet-mapping>
2、ServletAPI

我们使用以下servletAPI获得URL的值及参数。

request.getParameter("name");//获得queryString的参数值(来自于get和post),其值经过Servlet服务器URLDecode过的

request.getPathInfo();//注意:pathinfo返回的字符串是经过Servlet服务器URLDecode过的。

requestURI=request.getRequestURI();//内容为:contextPath/servletPath/pathinfo浏览器提交过来的原始数据,未被Servlet服务器URLDecode过。

3、开发人员必须清楚的servlet规范:

(1)HttpServletRequest.setCharacterEncoding()方法仅仅只适用于设置post提交的requestbody的编码而不是设置get方法提交的queryString的编码。该方法告诉应用服务器应该采用什么编码解析post传过来的内容。很多文章并没有说明这一点。

(2)HttpServletRequest.getPathInfo()返回的结果是由Servlet服务器解码(decode)过的。

(3)HttpServletRequest.getRequestURI()返回的字符串没有被Servlet服务器decoded过。

(4)POST提交的数据是作为requestbody的一部分。

(5)网页的Http头中ContentType("text/html;charset=GBK")的作用:

(a)告诉浏览器网页中数据是什么编码;

(b)表单提交时,通常浏览器会根据ContentType指定的charset对表单中的数据编码,然后发送给服务器的。

这里需要注意的是:这里所说的ContentType是指http头的ContentType,而不是在网页中meta中的ContentType。

三、下面我们分别从浏览器和应用服务器来举例说明:

URL:http://localhost:8080/example/中国?name=中国

汉字编码二进制表示

中国UTF-80xe40xb80xad0xe50x9b0xbd[-28,-72,-83,-27,-101,-67]

中国GBK0xd60xd00xb90xfa[-42,-48,-71,-6]

中国ISO8859-10x3f,0x3f[63,63]信息失去

(一)、浏览器

1、GET方式提交,浏览器会对URL进行URLencode,然后发送给服务器。

(1)对于中文IE,如果在高级选项中选中总以UTF-8发送(默认方式),则PathInfo是URLEncode是按照UTF-8编码,QueryString是按照GBK编码。

http://localhost:8080/example/中国?name=中国

实际上提交是:

GET/example/%E4%B8%AD%E5%9B%BD?name=%D6%D0%B9%FA
(1)对于中文IE,如果在高级选项中取消总以UTF-8发送,则PathInfo和QueryString是URLencode按照GBK编码。

实际上提交是:

GET/example/%D6%D0%B9%FA?name=%D6%D0%B9%FA
(3)对于中文firefox,则pathInfo和queryString都是URLencode按照GBK编码。

实际上提交是:

GET/example/%D6%D0%B9%FA?name=%D6%D0%B9%FA
很显然,不同的浏览器以及同一浏览器的不同设置,会影响最终URL中PathInfo的编码。对于中文的IE和FIREFOX都是采用GBK编码QueryString。
小结:解决方案:

1、URL中如果含有中文等非ASCII字符,则浏览器会对它们进行URLEncode。为了避免浏览器采用了我们不希望的编码,所以最好不要在URL中直接使用非ASCII字符,而采用URLEncode编码过的字符串%.

比如:

URL:http://localhost:8080/example/中国?name=中国

建议:

URL:http://localhost:8080/example/%D6%D0%B9%FA?name=%D6%D0%B9%FA
2、我们建议URL中PathInfo和QueryString采用相同的编码,这样对服务器端处理的时候会更加简单。
2、还有一个问题,我发现很多程序员并不明白URLEncode是需要指定字符集的。不明白的人可以看看这篇文档:http://gceclub.sun.com.cn/Java_Docs/html/zh_CN/api/java/net/URLEncoder.html
2、POST提交

对于POST方式,表单中的参数值对是通过requestbody发送给服务器,此时浏览器会根据网页的ContentType("text/html;charset=GBK")中指定的编码进行对表单中的数据进行编码,然后发给服务器。

在服务器端的程序中我们可以通过Request.setCharacterEncoding()设置编码,然后通过request.getParameter获得正确的数据。
解决方案:

1、从最简单,所需代价最小来看,我们对URL以及网页中的编码使用统一的编码对我们来说是比较合适的。

如果不使用统一编码的话,我们就需要在程序中做一些编码转换的事情。这也是我们为什么看到有网络上大量的资料介绍如何对乱码进行处理,其中很多解决方案都只是一时的权宜之计,没有从根本上解决问题。

(二)、Servlet服务器

Servlet服务器实现的Servlet遇到URL和POST提交的数据中含有%的字符串,它会按照指定的字符集解码。下面两个Servlet方法返回的结果都是经过解码的:

request.getParameter("name");

request.getPathInfo();
这里所说的"指定的字符集"是在应用服务器的配置文件中配置。
(1)tomcat服务器

对于tomcat服务器,该文件是server.xml

<Connectorport="8080"protocol="HTTP/1.1"

maxThreads="150"connectionTimeout="20000"

redirectPort="8443"URIEncoding="GBK"/>

URIEncoding告诉服务器servlet解码URL时采用的编码。
<Connectorport="8080"...useBodyEncodingForURI="true"/>

useBodyEncodingForURI告诉服务器解码URL时候需要采用requestbody指定的编码。
(2)weblogic服务器

对于weblogic服务器,该文件是weblogic.xml

<input-charset>

<java-charset-name>GBK</java-charset-name>

</input-charset>
(三)浏览器显示

浏览器根据http头中的ContentType("text/html;charset=GBK"),指定的字符集来解码服务器发送过来的字节流。我们可以调用HttpServletResponse.setContentType()设置http头的ContentType。
总结:

1、URL中的PathInfo和QueryString字符串的编码和解码是由浏览器和应用服务器的配置决定的,我们的程序不能设置,不要期望用request.setCharacterEncoding()方法能设置URL中参数值解码时的字符集。

所以我们建议URL中不要使用中文等非ASCII字符,如果含有非ASCII字符的话要使用URLEncode编码一下,比如:

http://localhost:8080/example1/example/中国

正确的写法:

http://localhost:8080/example1/example/%E4%B8%AD%E5%9B%BD

并且我们建议URL中不要在PathInfo和QueryString同时使用非ASCII字符,比如

http://localhost:8080/example1/example/中国?name=中国

原因很简单:不同浏览器对URL中PathInfo和QueryString编码时采用的字符集不同,但应用服务器对URL通常会采用相同的字符集来解码。
2、我们建议URL中的URLEncode编码的字符集和网页的contentType的字符集采用相同的字符集,这样程序的实现就很简单,不用做复杂的编码转换。

java.net

类URLEncoder

java.lang.Object

java.net.URLEncoder


publicclassURLEncoderextendsObject



HTML格式编码的实用工具类。该类包含了将String转换为
application/x-www-form-urlencoded
MIME格式的静态方法。有关HTML格式编码的更多信息,请参阅HTML规范。
对String编码时,使用以下规则:


字母数字字符"
a
"到"
z
"、"
A
"到"
Z
"和"
0
"到"
9
"保持不变。
特殊字符"
.
"、"
-
"、"
*
"和"
_
"保持不变。
空格字符"
"转换为一个加号"
+
"。
所有其他字符都是不安全的,因此首先使用一些编码机制将它们转换为一个或多个字节。然后每个字节用一个包含3个字符的字符串"
%xy
"表示,其中xy为该字节的两位十六进制表示形式。推荐的编码机制是UTF-8。但是,出于兼容性考虑,如果未指定一种编码,则使用相应平台的默认编码。

例如,使用UTF-8编码机制,字符串"Thestringü@foo-bar"将转换为"The+string+%C3%BC%40foo-bar",因为在UTF-8中,字符ü编码为两个字节,C3(十六进制)和BC(十六进制),字符@编码为一个字节40(十六进制)。

URL编码问题的文章,出处:http://www.360doc.com/content/07/0730/19/26823_643631.shtml
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: