UTF-8 编码里,一个汉字占用多少个字节 -转
2016-01-17 12:04
351 查看
在查找 UTF-8 编码资料时发现,很多的帖子说的 UTF-8 编码里,一个汉字占用3个字节,有的还做了个证明,大概是这样的,创建一个没有BOM的UTF-8编码的文本文件,里面保存了几个汉字,然后查看文件的大小。我觉得这样的证明没有一点说服力,因为 UTF-8 是变长的,1-6个字节,少量的汉字检测是不能说明所有的汉字都是的。
后来我又查看了字符映射表-汉语,找到了正确的答案,少数是汉字每个占用3个字节,多数占用4个字节。
占用3个字节的范围
合计: 52156 个
占用4个字节的范围
合计: 64029 个
后来我又查看了字符映射表-汉语,找到了正确的答案,少数是汉字每个占用3个字节,多数占用4个字节。
占用3个字节的范围
U+2E80 - U+2EF3 : 0xE2 0xBA 0x80 - 0xE2 0xBB 0xB3 共 115 个 U+2F00 - U+2FD5 : 0xE2 0xBC 0x80 - 0xE2 0xBF 0x95 共 213 个 U+3005 - U+3029 : 0xE3 0x80 0x85 - 0xE3 0x80 0xA9 共 36 个 U+3038 - U+4DB5 : 0xE3 0x80 0xB8 - 0xE4 0xB6 0xB5 共 7549 个 U+4E00 - U+FA6A : 0xE4 0xB8 0x80 - 0xEF 0xA9 0xAA 共 44138 个 U+FA70 - U+FAD9 : 0xEF 0xA9 0xB0 - 0xEF 0xAB 0x99 共 105 个
合计: 52156 个
占用4个字节的范围
U+20000 - U+2FA1D : 0xF0 0xA0 0x80 0x80 - 0xF0 0xAF 0xA8 0x9D 共 64029 个
合计: 64029 个
相关文章推荐
- HTML5扫雷游戏
- 《Python for kids》学习笔记(一)
- org.testng.TestNGException: Cannot find class in classpath
- 机器学习笔记(一) : 线性建模——最小二乘法
- 从头认识java-17.7 执行器(Executor)(1)-线程池
- sqlite 按拼音排序
- Ubuntu 13.10 用sogou拼音替换ibus-转
- java正则表达式的学习
- Ubuntu 12.04中设置安装Google拼音输入法
- Bash中命令连接符的用法——一次执行多个命令-转
- 安装cocoapods
- makefile how to
- 如何正确退出线程
- php 密码加密方式
- 关于sqlite断电或者存储空间不足造成的数据文件损坏问题-转
- Android IPC 之AIDL
- 数据库的基本操作
- 天津政府应急系统之GIS一张图(arcgis api for flex)讲解(十三)台风模块
- mysql之临时表【整理】
- Apache常见编译选项-转