您的位置:首页 > 数据库 > MySQL

MySQL字符集中文乱码终极解决方案和mysql查询中文问题解决方法[转贴]

2012-11-22 16:44 1031 查看
开源数据库MySQL从来都是中小企业构建web应用的首选,特别是和PHP配合简直就是一对黄金搭档,深受web开发人员的喜爱。但自从4.1以来MySQL加入了多字符集的支持,很多MySQL使用者发现中文居然不能使用了,显示变成了一堆乱码!以致于很多人还在使用3.24.58的老版本,最近上MySQL网站,发现居然不提供3.24版本的下载了,MySQL已经彻底放弃3.24版本了。好在我还留有一份windows版的copy,就当作纪念吧。

怎么会产生乱码现象的,怎么解决?只要翻下网上的解决方案,马上就可以得出答案:“在获得连接之后执行一句set names 'gb2312'”,但这样做的原因是什么呢?总结一下我的经验。

MySQL处理连接时,外部连接发送过来的SQL请求会根据以下顺序进行转换:

character_set_client //客户连接所采用的字符集

|

character_set_connection //MySQL连接字符集

|

character_set_database //数据库所采用的字符集(表,列)

|

character_set_results //客户机显示所采用的字符集

一. 产生乱码的根本原因在于:

1.客户机没有正确地设置client字符集,导致原先的SQL语句被转换成connection所指字符集,而这种转换,是会丢失信息的,如果client是utf8格式,那么如果转换成gb2312格式,这其中必定会丢失信息,反之则不会丢失。一定要保证connection的字符集大于client字符集才能保证转换不丢失信息。

2. 数据库字体没有设置正确,如果数据库字体设置不正确,那么connection字符集转换成database字符集照样丢失编码,原因跟上面一样。

二.为什么set names 'gb2312'就可以了呢

set names 'gb2312'相当于这三条语句:

set character_set_client = gb2312;

set character_set_connection = gb2312;

set character_set_results = gb2312;

这样做的话,上述产生乱码的原因1就不存在了,因为编码格式都统一了,但是这样做并不是万金油。原因有:

1.你的client不一定是用gb2312编码发送SQL的,如果编码不是gb2312那么转换成gb2312就会产生问题。

2.你的数据库中的表不一定是gb2312格式,如果不是gb2312格式而是其他的比如说latin1,那么在存储字符集的时候就会产生信息丢失。

综上,终极解决方案如下:

1.首先要明确你的客户端时候何种编码格式,这是最重要的(IE6一般用utf8,命令行一般是gbk,一般程序是gb2312)

2.确保你的数据库使用utf8格式,很简单,所有编码通吃。

3.一定要保证connection字符集大于等于client字符集,不然就会信息丢失,比如latin1<gb2312<gbk<utf8

若设置set character_set_client = gb2312,那么至少connection的字符集要大于等于gb2312,否则就会丢失信息

4.以上三步做正确的话,那么所有中文都被正确地转换成utf8格式存储进了数据库,为了适应不同的浏览器,不同的客户端,你可以修改character_set_results来以不同的编码显示中文字体,由于utf8是大方向,因此web应用是我还是倾向于使用utf8格式显示中文的。

以上就是我的心得了。附上连接源码,现行设置,程序中就可以不考虑字符集问题了

include "conf/system.php";

class Connection {

private $conn;

function __construct() {

global $mysql_ipaddr, $mysql_port, $mysql_db, $mysql_user, $mysql_pass;

try {

$this->conn = new PDO("mysql:host=$mysql_ipaddr;port=$mysql_port;dbname=$mysql_db", $mysql_user, $mysql_pass);

} catch (PDOException $e) {

print "MySQL服务器连接失败: " . $e->getMessage() . "<br>";

die();

}

}

public function getConnection() {

if ($this->conn != null) {

$this->conn->query("set character_set_client = gb2312");
//客户端使用gb2312格式

$this->conn->query("set character_set_connection = utf8");
//连接字符集使用utf8格式

$this->conn->query("set character_set_results = utf8"); //显示字符集使用utf8格式

return $this->conn;

}

}

public function closeConnection() {

if ($this->conn != null) {

$this->conn = null;

}

}

}

我现在在mysql上遇到一个问题,我们的字符集是gb2312.在中文模糊查找时,会有不相关的结果集.

从问题的根本原因分析,还有下面的问题。

例:

汉字“不”的第1、2字节ascii值分别为:178与187

汉字“安”的第1、2字节ascii值分别为:176与178

汉字“花”的第1、2字节ascii值分别为:187与168

聪明的人已经看出来了:在字符串“安花”中模糊查找字符“不”字时,mysql系统也会认为两者匹配!


出现这个问题的原因是:MySQL在查询字符串时是大小写不敏感的,在编绎MySQL时一般以ISO-8859字符集作为默认的字符集,因此在比较过程中中文编码字符大小写转换造成了这种现象。

方法一:

解决方法是对于包含中文的字段加上"binary"属性,使之作为二进制比较,例如将"name char(10)"改成"name char(10)binary"。

方法二:

如果你使用源码编译MySQL,可以编译MySQL时使用--with--charset=gbk 参数,这样MySQL就会直接支持中文查找和排序了。

方法三:

可以使用 Mysql 的 locate 函数来判断。以上述问题为例,使用方法为:

SELECT * FROM table WHERE locate(field,'李') > 0;

本站使用的就是这种方法,感觉还不错。:P

方法四:

把您的Select语句改成这样,SELECT * FROM TABLE WHERE FIELDS LIKE BINARY '%FIND%'即可!

升级的根本,如果想使用“正确”的字符集,还是先用mysqldump导出成文件,然后导入。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: