您的位置：首页 > 编程语言 > Java开发

java中字符与字节的编码关系

2016-02-06 09:13 344 查看

一个英文字母字符存储需要1个字节。在 GB 2312 编码或 GBK 编码中，一个汉字字符存储需要2个字节。
在UTF-8编码中，一个英文字母字符存储需要1个字节，一个汉字字符储存需要3到4个字节。在UTF-16编码中，一个英文字母字符或一个汉字字符存储都需要2个字节（Unicode扩展区的一些汉字存储需要4个字节）。在UTF-32编码中，世界上任何字符的存储都需要4个字节。

其次还要知道一点常识，就是我们在记事本等一些文本工具中写的都是字符，没有谁会去写字节（可以写字节，但是要用具特殊的编辑器），但是其实，我们的写的是字符，但磁盘上真实存储的是字节。
这里就出现了转换的问题，当然，这些问题记事本本身会帮助我们解决。我们打开一个记事本，然后文件--另存为，你会发现有几种存储格式供您选择，

ANSI格式：就是ascii的格式

Unicode格式：采用国际通用的编码存储

Unicode big endian格式：这个和unicode有点区别，但我也不明太具体的不同

UTF-8：采用utf-8存储，看过上面的两篇文章，你会十分的了解这里介绍的编码。Utf-8，是unicode的一种实现方式。
例如我们在记事本里面输入“连通”两个字。
1.我们另存记事本的时候，采用unicode存储，那么虽然我们看到的字符还是“连通”，但是其实存储在磁盘上的字节确实

8FDE（连） 901A （通），这个是规定的，unicode是国际上规定的，给世界上的每个字符分配的唯一编码。获取某个字符的unicode的方法，可以去网上查找，最简单的方法，就是打开word文档，输入字符，把光标移动到字符后面，按alt+x，word会自动把字符转换成unicode编码，这里呢我们也可以看到，用unicode存储汉字啊，每个汉字占用两个字节。
2.我们另存记事本的时候，采用utf-8存储，虽然我们看到的字符还是“连通”，但是其实存储在磁盘上的字节确实已经变化了，这时候存储的是

E8
4000
BF 9E （连）E9 80 9A（通）。这就是utf-8的存储的编码，至于utf-8为什么这样存储，你可以阅读上面的两篇文章来了解，可以看到，utf-8使用3个字节存储一个汉字。
另外我们还要知道的就是：电脑怎么区分一个记事本是用什么存储的呢？

换句话说，为什么我用unicode存储的8FDE（连） 901A （通），电脑就知道这是unicode编码，从而使用unicode解码，还原为“连通”呢？电脑又怎么知道E8 BF 9E （连）E9 80 9A（通）这是按照utf-8的存储方式存储的呢？
这里有一点标记，就是在存储字节的时候，记事本首先在最前面标明，这个记事本下面的存储格式是utf-8，还是unicode。
例如，
1.unicode存储“连通”。磁盘字节真实存储的其实是：
FF FE 8FDE 901A
前两个FF FE是标记，告诉电脑，这个文档的存储方式是unicode
2.utf-8存储“连通”。磁盘字节真实存储的其实是：
EF BB BF E8 BF 9E E9 80 9A
前三个EF BB BF 告诉电脑这个文档是utf-8存储的

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航