您的位置:首页 > 其它

utf-8中的汉字占用多少字节

2014-10-08 10:59 274 查看
 占2个字节的:0

 占3个字节的:基本等同于GBK,含21000多个汉字

 占4个字节的:中日韩超大字符集里面的汉字,有5万多个

 一个utf-8数字和英文字母都占1个字节

     在查找 UTF-8 编码资料时发现,很多的帖子说的 UTF-8 编码里,一个汉字占用3个字节,有的还做了个证明,大概是这样的,创建一个没有BOM的UTF-8编码的文本文件,里面保存了几个汉字,然后查看文件的大小。我觉得这样的证明没有一点说服力,因为 UTF-8 是变长的,1-6个字节,少量的汉字检测是不能说明所有的汉字都是的。

     后来又查看了字符映射表-汉语,找到了正确的答案,少数是汉字每个占用3个字节,多数占用4个字节。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: