处理utf-8中文文本,程序莫名出错中断
2016-01-18 18:44
183 查看
由于中文使用utf-8编码时,编码可用的位数有限,所以并不能针对所有中文汉字进行编码。
中文汉字大约有五六万个(具体我也不清楚),但是utf-8编码的中文汉字好像只有两万字左右,因此,大量比较生僻的汉字未能编码,所以,处理包含这些字符的文本时,可能出错,但是没有办法,直接删除掉那些语句就OK了。或者也可以将编码改为Unicode。
中文汉字大约有五六万个(具体我也不清楚),但是utf-8编码的中文汉字好像只有两万字左右,因此,大量比较生僻的汉字未能编码,所以,处理包含这些字符的文本时,可能出错,但是没有办法,直接删除掉那些语句就OK了。或者也可以将编码改为Unicode。
相关文章推荐
- 书签整理
- 转载:jQuery的deferred对象详解
- Qt5音乐播放器
- poj1837
- C语言 内存四大存储区域
- FPGA的JTAG下载问题
- 在Window平台下安装xgboost的Python版本
- 添加Sql作业,新建步骤出现:从IClassFactory为CLSID为{AA40D1D6-CAEF-4A56-B9BB-D0D3DC976BA2}的COM组件创建实例失败
- Android 混淆[学习笔记]
- 时间转换为yyyymmdd
- (转)浅谈数据库的水平拆分
- 查询在指定的数据库中所有的表名和每个表的字段名及字段类型
- 【Scala-模式匹配和样例类】
- 【Linux驱动】TQ2440 LED驱动程序
- 计算两个日期相差年月日
- df命令
- libpng在Linux下的编译
- hdu1423 Greatest Common Increasing Subsequence
- 绝渡逢舟系列题解
- oracle笔记整理16——表空间利用率、锁表、锁包、dbms_job操作