PHP 中转换 SGML 类语言为真实中文字符
2016-07-25 11:01
489 查看
昨天在用 PHP 在做一个数据采集项目的时候遇到了一个特殊的问题,就是中文被特殊的字符转化,用PHP采集过来还是保持原来的字符,但在浏览器会被编译成正常的中文字符显示在页面上,但你打开源代码查看时还是会保持原来的字符。
‘Ubuntu | 全球领先的用于个人电脑、平板及手机的操作系统’
上面是这个特殊的原形,经过网络的查找,说这一串字符是 HTML、XML 等 SGML 类语言的转义序列(escape sequence)。它们不是「编码」。
dddd;
hhhh;
name;
以 HTML 为例,这三种转义序列都称作 character reference:
前两种是 numeric character reference(NCR),数字取值为目标字符的 Unicode code point;以「」开头的后接十进制数字,以「」开头的后接十六进制数字。
后一种是 character entity reference,后接预先定义的 entity 名称,而 entity 声明了自身指代的字符。
从 HTML 4 开始,NCR 以 Unicode 为准,与文档编码无关。
通过以上资料的提示,我开始查找 PHP 有关 Unicode 方面的信息,所以昨天就找到这篇我收藏的《PHP实现Unicode和Utf-8编码的互相转换》可无奈的是依然无法解决我想直接在 PHP 中就将这字符直接转换成将中文输出的问题,于是今天上午我又换了一种思路去开始查找,最后终于让我找到了解决方法。
原来 PHP 自带就有两个函数来解决这个问题,这两个函数分别是 html_entity_decode 和 mb_convert_encoding。
至于这两个函数的用法,大家可以看 PHP 官方的手册就明白,这个不多说了,下面是两个函数解决这个问题的写法。
$string = 'Ubuntu | 全球领先的用于个人电脑、平板及手机的操作系统';
$str1 = html_entity_decode($string);
$str2 = mb_convert_encoding($string, 'utf-8', 'HTML-ENTITIES');
转载请注明:PKCMS博客 »
PHP 中转换 SGML 类语言为真实中文字符
‘Ubuntu | 全球领先的用于个人电脑、平板及手机的操作系统’
上面是这个特殊的原形,经过网络的查找,说这一串字符是 HTML、XML 等 SGML 类语言的转义序列(escape sequence)。它们不是「编码」。
dddd;
hhhh;
name;
以 HTML 为例,这三种转义序列都称作 character reference:
前两种是 numeric character reference(NCR),数字取值为目标字符的 Unicode code point;以「」开头的后接十进制数字,以「」开头的后接十六进制数字。
后一种是 character entity reference,后接预先定义的 entity 名称,而 entity 声明了自身指代的字符。
从 HTML 4 开始,NCR 以 Unicode 为准,与文档编码无关。
通过以上资料的提示,我开始查找 PHP 有关 Unicode 方面的信息,所以昨天就找到这篇我收藏的《PHP实现Unicode和Utf-8编码的互相转换》可无奈的是依然无法解决我想直接在 PHP 中就将这字符直接转换成将中文输出的问题,于是今天上午我又换了一种思路去开始查找,最后终于让我找到了解决方法。
原来 PHP 自带就有两个函数来解决这个问题,这两个函数分别是 html_entity_decode 和 mb_convert_encoding。
至于这两个函数的用法,大家可以看 PHP 官方的手册就明白,这个不多说了,下面是两个函数解决这个问题的写法。
$string = 'Ubuntu | 全球领先的用于个人电脑、平板及手机的操作系统';
$str1 = html_entity_decode($string);
$str2 = mb_convert_encoding($string, 'utf-8', 'HTML-ENTITIES');
转载请注明:PKCMS博客 »
PHP 中转换 SGML 类语言为真实中文字符
相关文章推荐
- 一个关于if else容易迷惑的问题
- PHP5.2.*防止Hash冲突拒绝服务攻击的Patch
- 深入理解PHP之匿名函数
- JSP/PHP基于Ajax的分页功能实现
- 关于PHP通过PDO用中文条件查询MySQL的问题。
- 什么是设计模式
- PHP数据库长连接mysql_pconnect的细节
- Php Installing An Expansion
- rem : web app适配的秘密武器
- jquery高级应用之Deferred对象
- 关于浮动与清除浮动,你应该知道的
- 数组reduce方法的高级技巧
- php7 读取php.ini[4]
- PHP+Apache在Windows 9x下的安装和配置
- IIS 6 的 PHP 最佳配置方法
- 安装Apache和PHP的一些补充
- Linux Apache+MySQL+PHP
- 建立Apache+PHP+MySQL数据库驱动的动态网站