您的位置:首页 > 数据库 > MySQL

mysql导入数据load data infile用法整理

2016-11-30 17:26 766 查看
有时候我们需要将大量数据批量写入数据库,直接使用程序语言和Sql写入往往很耗时间,其中有一种方案就是使用MySqlLoaddatainfile导入文件的形式导入数据,这样可大大缩短数据导入时间。

假如是从MySql客户端调用,将客户端的文件导入,则需要使用loadlocaldatainfile.

LOADDATAINFILE语句以很高的速度从一个文本文件中读取行到一个表中。文件名必须是一个文字字符串。

1,开启loadlocaldatainfile.

假如是Linux下编译安装,

如果使用源码编译的MySQL,在configure的时候,需要添加参数:--enable-local-infile客户端和服务器端都需要,否则不能使用local参数。

./configure--prefix=/usr/local/mysql--enable-local-infile

makeinstall

若是其它系统,可在配置文件中配置:

在MySql配置文件My.ini文件中下面项中加入local-infile=1:

add:

[mysqld]

local-infile=1

[mysql]

local-infile=1

客户端和服务端度需要开启,对于客户端也可以在执行命中加上--local-infile=1参数:

mysql--local-infile=1-uroot-pyourpwdyourdbname

如:

如:/usr/local/mysql/bin/mysql-uroot-h192.168.0.2-prootdatabaseName--local-infile=1-e"LOADDATALOCALINFILE'data.txt'intotabletest(name,sex)"

2,编码格式注意:

若包含中文,请保证导入文件、连接字符串、导入表都是UTF-8编码。

3,执行

在使用LOADDATA到MySQL的时候,有2种情况:

(1)在远程客户端(需要添加选项:--local-infile=1)导入远程客户端文本到MySQL,需指定LOCAL(默认就是ignore),加ignore选项会放弃数据,加replace选项会更新数据,都不会出现唯一性约束问题。

[zhuxu@xentest9-vm1tmp]$mysql-uzhuxu-pzhuxutest-h10.254.5.151--local-infile=1--show-warnings-v-v-v\

>-e"LOADDATALOCALINFILE'/tmp/2.txt'INTOTABLEtmp_loaddataFIELDSTERMINATEDBY','";

(2)在本地服务器导入本地服务器文本到MySQL,不指定LOACL,出现唯一性约束冲突,会失败回滚,数据导入不进去,这个时候就需要加ignore或者replace来导入数据。

mysql>LOADDATAINFILE'/home/zhuxu/1.txt'INTOTABLEtmp_loaddataFIELDSTERMINATEDBY',';

4,事务分析

步骤是这样的:

1,开启binlog,设置binlog_format=row,执行resetmaster;

2,loaddatainfilexxxxx;

3,查看binlog。

可以看出,总共是一个事务,也通过mysqlbinlog查看了binarylog,确认中间是被拆分成了多个insert形式。所以loaddatainfile基本上是这样执行的:

begin

insertintovalues(),(),(),()...

insertintovalues(),(),(),()...

insertintovalues(),(),(),()...

...

...

commit

当然,由于row格式的binlog的语句并不是很明显的记录成多值insert语句,它的格式时

insertintotable

set@1=

set@2=

...

set@n=

insertintotable

set@1=

set@2=

...

set@n=

insert...

;注意这里有一个分号‘;’,其实前面这一部分就相当于前面说的多值insert形式

然后接下来就重复上面的那种格式,也就是一个loaddatainfile拆成了多个多值insert语句。

前面说的是row格式记录的loaddatainfile,那么对于statement是怎么样的呢?statement格式的binlog,它是这样记录的,binlog中还是同样的loaddata语句,但是在记录loaddata语句之前,它会先将你master上这个loaddata使用到的csv格式的文件拆分成多个部分,然后传到slave上(在mysql的tmpdir下),当然传这些csv格式的文件也会记录binlogevent,然后最后真正的SQL语句形式就是loaddatalocalinfile'/tmp/SQL_X_Y'这种形式(这里假设mysql的tmpdir是默认的/tmp),实际上这样很危险,比如tmpdir空间不够,那就会报错。不过从效率上来说两者可能差不多,因为statement格式的binlog也是拆分成了多个语句。

附:

(1)loaddatainfile和loadlocaldatainfile在innodb和MyISAM同步方面的区别

对MyISAM引擎:

(1)对master服务器进行‘load’操作,

(2)在master上所操作的load.txt文件,会同步传输到slave上,并在tmp_dir目录下生成load.txt文件

master服务器插入了多少,就传给slave多少

(3)当master上的load操作完成后,传给slave的文件也结束时,

即:在slave上生成完整的load.txt文件

此时,slave才开始从load.txt读取数据,并将数据插入到本地的表中

对innodb引擎:

(1)主数据库进行‘Load’操作

(2)主数据库操作完成后,才开始向slave传输load.txt文件,

slave接受文件,并在tmp_dir目录下生成load.txt文件

接受并生成完整的load.txt后,才开始读取该文件,并将数据插入到本地表中

异常情况处理:

1)对MyISAM引擎

当数据库执行load,此时如果中断:

Slave端将报错,例如:

####################################################################

Querypartiallycompletedonthemaster(erroronmaster:1053)andwasaborted.

Thereisachancethatyourmasterisinconsistentatthispoint.

Ifyouaresurethatyourmasterisok,

runthisquerymanuallyontheslaveandthenrestarttheslavewithSETGLOBALSQL_SLAVE_SKIP_COUNTER=1;

STARTSLAVE;.Query:'LOADDATAINFILE'/tmp/SQL_LOAD-2-1-3.data'IGNOREINTOTABLE`test_1`

FIELDSTERMINATEDBY','ENCLOSEDBY''ESCAPEDBY'\\'LINESTERMINATEDBY'\n'(`id`,`name`,`address`)'

###########################################################################################

按照提示,在slave服务器上:

(1)使用提示的load命令,将主服务器传输过来的load文件,在从服务器上执行

(2)让从服务器跳过错误。setglobalsql_slave_skip_counter=1;

(3)开启同步

2)对Innodb引擎

由于innodb是事务型的,所以会把load文件的整个操作当作一个事务来处理,

中途中断load操作,会导致回滚。

与此相关的一些参数:

max_binlog_cache_size----能够使用的最大cache内存大小。

当执行多语句事务时,max_binlog_cache_size如果不够大,

系统可能会报出“Multi-statement

transactionrequiredmorethan'max_binlog_cache_size'bytesofstorage”的错误。

备注:以loaddata来说,如果load的文件大小为512M,在执行load的过程中,

所有产生的binlog会先写入binlog_cache_size,直到loaddata的操作结束后,

最后,再由binlog_cache_size写入二进制日志,如mysql-bin.0000008等。

所以此参数的大小必须大于所要load的文件的大小,或者当前所要进行的事务操作的大小。

max_binlog_size------------Binlog最大值,一般设置为512M或1GB,但不能超过1GB。

该设置并不能严格控制Binlog的大小,尤其是Binlog遇到一根比较大事务时,

为了保证事务的完整性,不可能做切换日志的动作,只能将该事务的所有SQL都记录进

当前日志,直到事务结束

备注:有时能看到,binlog生成的大小,超过了设定的1G。这就是因为innodb某个事务的操作比较大,

不能做切换日志操作,就全部写入当前日志,直到事务结束。

使用intooutfile和loaddatainfile导入导出备份数据

如果要导出一个表中的部分字段或者部分符合条件的记录,需要用到了mysql的intooutfileloaddatainfile
例如下面的mysql命令是把select的mytable表中的数据导出到/home/db_bak2012文件。

假如要导入刚才备份的数据,可以使用loadfile方法,例如下面的mysql命令,把导出的数据导入了mytable_bak的表中:

这种方法的好处是,导出的数据可以自己规定格式,并且导出的是纯数据,不存在建表信息,你可以直接导入另外一个同数据库的不同表中,相对于mysqldump比较灵活机动。

loaddatainfile语句从一个文本文件中以很高的速度读入一个表中。使用这个命令之前,mysqld进程(服务)必须已经在运行。为了安全原因,当读取位于服务器上的文本文件时,文件必须处于数据库目录或可被所有人读取。另外,为了对服务器上文件使用loaddatainfile,在服务器主机上你必须有file的权限。
1如果你指定关键词low_priority,那么MySQL将会等到没有其他人读这个表的时候,才把插入数据。可以使用如下的命令:
loaddatalow_priorityinfile"/home/mark/datasql"intotableOrders;

2如果指定local关键词,则表明从客户主机读文件。如果local没指定,文件必须位于服务器上。

3replace和ignore关键词控制对现有的唯一键记录的重复的处理。如果你指定replace,新行将代替有相同的唯一键值的现有行。如果你指定ignore,跳过有唯一键的现有行的重复行的输入。如果你不指定任何一个选项,当找到重复键时,出现一个错误,并且文本文件的余下部分被忽略。例如:
loaddatalow_priorityinfile"/home/mark/datasql"replaceintotableOrders;

4分隔符
(1)fields关键字指定了文件记段的分割格式,如果用到这个关键字,MySQL剖析器希望看到至少有下面的一个选项:
terminatedby分隔符:意思是以什么字符作为分隔符
enclosedby字段括起字符
escapedby转义字符
terminatedby描述字段的分隔符,默认情况下是tab字符(\t)
enclosedby描述的是字段的括起字符。
escapedby描述的转义字符。默认的是反斜杠(backslash:\)
例如:loaddatainfile"/home/mark/Orderstxt"replaceintotableOrdersfieldsterminatedby','enclosedby'"';
(2)lines关键字指定了每条记录的分隔符默认为'\n'即为换行符
如果两个字段都指定了那fields必须在lines之前。如果不指定fields关键字缺省值与如果你这样写的相同:fieldsterminatedby'\t'enclosedby’''‘escapedby'\\'
如果你不指定一个lines子句,缺省值与如果你这样写的相同:linesterminatedby'\n'
例如:loaddatainfile"/jiaoben/load.txt"replaceintotabletestfieldsterminatedby','linesterminatedby'/n';
5loaddatainfile可以按指定的列把文件导入到数据库中。当我们要把数据的一部分内容导入的时候,,需要加入一些栏目(列/字段/field)到MySQL数据库中,以适应一些额外的需要。比方说,我们要从Access数据库升级到MySQL数据库的时候
下面的例子显示了如何向指定的栏目(field)中导入数据:
loaddatainfile"/home/Ordertxt"intotableOrders(Order_Number,Order_Date,Customer_ID);
6当在服务器主机上寻找文件时,服务器使用下列规则:
(1)如果给出一个绝对路径名,服务器使用该路径名。
(2)如果给出一个有一个或多个前置部件的相对路径名,服务器相对服务器的数据目录搜索文件。
(3)如果给出一个没有前置部件的一个文件名,服务器在当前数据库的数据库目录寻找文件。
例如:/myfiletxt”给出的文件是从服务器的数据目录读取,而作为“myfiletxt”给出的一个文件是从当前数据库的数据库目录下读取。

注意:字段中的空值用\N表示

我的文章一般浅显易懂,不会搞那么深入让大家很难理解。(其实我水平也不咋样)

LOADDATAINFILE一直被认为是MySQL很强大的一个数据导入工具,因为他速度非常的快。
不过有几个问题一定要注意
1、编码。
2、灵活导入导出。

我来举两个例子说明一下。
一、关于编码
我们的示例文本文件:
"我爱你","20","相貌平常,经常耍流氓!哈哈"
"李奎","21","相貌平常,经常耍流氓!哈哈"
"王二米","20","相貌平常,经常耍流氓!哈哈"
"老三","24","很强"
"老四","34","XXXXX"
"老五","52","***%*¥*¥*¥*¥"
"小猫","45","中间省略。。。"
"小狗","12","就会叫"
"小妹","21","PP的很"
"小坏蛋","52","表里不一"
"上帝他爷","96","非常英俊"
"MM来了","10","。。。"
"歌颂党","20","社会主义好"
"人民好","20","的确是好"
"老高","10","学习很好"
"斜三","60","眼睛斜了"
"中华之子","100","威武的不行了"
"大米","63","我爱吃"
"苹果","15","好吃"
我们的示例表结构:

+-------+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|Table|CreateTable|
+-------+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|t0|CREATETABLE`t0`(
`id`bigint(20)unsignedNOTNULLauto_increment,
`name`char(20)NOTNULL,
`age`tinyint(3)unsignedNOTNULL,
`description`textNOTNULL,
PRIMARYKEY(`id`),
UNIQUEKEY`idx_name`(`name`)
)ENGINE=MyISAMDEFAULTCHARSET=utf8|
+-------+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
1rowinset(0.00sec)

我们把这个文本文件从WINDOWS下COPY到LINUX下看看

mysql>loaddatainfile'/tmp/t0.txt'ignoreintotablet0charactersetgbkfieldsterminatedby','enclosedby'"'linesterminatedby'\n'(`name`,`age`,`description`);
QueryOK,19rowsaffected(0.01sec)
Records:19Deleted:0Skipped:0Warnings:0

mysql>select*fromt0;
+----+----------+-----+----------------------------+
|id|name|age|description|
+----+----------+-----+----------------------------+
|1|我爱你|20|相貌平常,经常耍流氓!哈哈|
|2|李奎|21|相貌平常,经常耍流氓!哈哈|
|3|王二米|20|相貌平常,经常耍流氓!哈哈|
|4|老三|24|很强|
|5|老四|34|XXXXX|
|6|老五|52|***%*¥*¥*¥*¥|
|7|小猫|45|中间省略。。。|
|8|小狗|12|就会叫|
|9|小妹|21|PP的很|
|10|小坏蛋|52|表里不一|
|11|上帝他爷|96|非常英俊|
|12|MM来了|10|。。。|
|13|歌颂党|20|社会主义好|
|14|人民好|20|的确是好|
|15|老高|10|学习很好|
|16|斜三|60|眼睛斜了|
|17|中华之子|100|威武的不行了|
|18|大米|63|我爱吃|
|19|苹果|15|好吃|
+----+----------+-----+----------------------------+
19rowsinset(0.00sec)

我来说明一下相关的参数
关于我的导入语句,我现在直说两个,其他的参考手册。
charactersetgbk;

这个字符集一定要写,要不然就会乱码或者只导入一部分数据。

ignoreintotable

因为name列加了唯一索引,加这个是为了避免重复数据插入报错。

加入我们再次运行这个导入语句就会发现
QueryOK,0rowsaffected(0.00sec)
Records:19Deleted:0Skipped:19Warnings:0
没有任何值导入,因为里面已经有了相同的值。

这里也可以用replaceintotable
MySQL会把相同的先干掉,再插入新的值。
mysql>loaddatainfile'/tmp/t0.txt'replaceintotablet0charactersetgbkfieldsterminatedby','enclosedby'"'linesterminatedby'\n'(`name`,`age`,`description`);
QueryOK,38rowsaffected(0.00sec)
Records:19Deleted:19Skipped:0Warnings:0

mysql>select*fromt0;
+----+----------+-----+----------------------------+
|id|name|age|description|
+----+----------+-----+----------------------------+
|20|我爱你|20|相貌平常,经常耍流氓!哈哈|
|21|李奎|21|相貌平常,经常耍流氓!哈哈|
|22|王二米|20|相貌平常,经常耍流氓!哈哈|
|23|老三|24|很强|
|24|老四|34|XXXXX|
|25|老五|52|***%*¥*¥*¥*¥|
|26|小猫|45|中间省略。。。|
|27|小狗|12|就会叫|
|28|小妹|21|PP的很|
|29|小坏蛋|52|表里不一|
|30|上帝他爷|96|非常英俊|
|31|MM来了|10|。。。|
|32|歌颂党|20|社会主义好|
|33|人民好|20|的确是好|
|34|老高|10|学习很好|
|35|斜三|60|眼睛斜了|
|36|中华之子|100|威武的不行了|
|37|大米|63|我爱吃|
|38|苹果|15|好吃|
+----+----------+-----+----------------------------+
19rowsinset(0.00sec)

(`name`,`age`,`description`);

这些也就是具体的表属性了,指明这个就可以导入想要的数据。
2、关于灵活性,其实也就是一个记录功能
如果想在导入的时候记录一下导入的具体时间怎么办?
我们来看看
先加一个时间属性记录导入时间。
mysql>altertablet0addupdate_timetimestampnotnull;
QueryOK,19rowsaffected(0.00sec)
Records:19Duplicates:0Warnings:0
干掉唯一索引
mysql>altertablet0dropindexidx_name;
QueryOK,19rowsaffected(0.00sec)
Records:19Duplicates:0Warnings:0

mysql>loaddatainfile'/tmp/t0.txt'intotablet0charactersetgbkfieldsterminatedby','enclosedby'"'linesterminatedby'\n'(`name`,`age`,`description`)setupdate_time=current_timestamp;
QueryOK,19rowsaffected(0.00sec)
Records:19Deleted:0Skipped:0Warnings:0

mysql>select*fromt0;
+----+----------+-----+----------------------------+---------------------+
|id|name|age|description|update_time|
+----+----------+-----+----------------------------+---------------------+
|20|我爱你|20|相貌平常,经常耍流氓!哈哈|0000-00-0000:00:00|
…………
|24|老四|34|XXXXX|0000-00-0000:00:00|
|25|老五|52|***%*¥*¥*¥*¥|0000-00-0000:00:00|
…………
|35|斜三|60|眼睛斜了|0000-00-0000:00:00|
|36|中华之子|100|威武的不行了|0000-00-0000:00:00|
…………
|60|王二米|20|相貌平常,经常耍流氓!哈哈|2008-06-3014:58:37|
…………
|68|上帝他爷|96|非常英俊|2008-06-3014:58:37|
|69|MM来了|10|。。。|2008-06-3014:58:37|
…………
|75|大米|63|我爱吃|2008-06-3014:58:37|
|76|苹果|15|好吃|2008-06-3014:58:37|
+----+----------+-----+----------------------------+---------------------+
38rowsinset(0.00sec)

新导入的19条记录时间被记录了下来。
只是之前的数据库没有记录,不过现在不需要这些重复数据了。

干掉他就可以了

mysql>altertablet0orderbyiddesc;
QueryOK,38rowsaffected(0.01sec)
Records:38Duplicates:0Warnings:0

mysql>alterignoretablet0adduniqueindexidx_name(`name`);
QueryOK,38rowsaffected(0.00sec)
Records:38Duplicates:19Warnings:0

mysql>altertablet0orderbyidasc;
QueryOK,19rowsaffected(0.01sec)
Records:19Duplicates:0Warnings:0

mysql>select*fromt0;
+----+----------+-----+----------------------------+---------------------+
|id|name|age|description|update_time|
+----+----------+-----+----------------------------+---------------------+
|58|我爱你|20|相貌平常,经常耍流氓!哈哈|2008-06-3014:58:37|
|59|李奎|21|相貌平常,经常耍流氓!哈哈|2008-06-3014:58:37|
|60|王二米|20|相貌平常,经常耍流氓!哈哈|2008-06-3014:58:37|
|61|老三|24|很强|2008-06-3014:58:37|
|62|老四|34|XXXXX|2008-06-3014:58:37|
|63|老五|52|***%*¥*¥*¥*¥|2008-06-3014:58:37|
|64|小猫|45|中间省略。。。|2008-06-3014:58:37|
|65|小狗|12|就会叫|2008-06-3014:58:37|
|66|小妹|21|PP的很|2008-06-3014:58:37|
|67|小坏蛋|52|表里不一|2008-06-3014:58:37|
|68|上帝他爷|96|非常英俊|2008-06-3014:58:37|
|69|MM来了|10|。。。|2008-06-3014:58:37|
|70|歌颂党|20|社会主义好|2008-06-3014:58:37|
|71|人民好|20|的确是好|2008-06-3014:58:37|
|72|老高|10|学习很好|2008-06-3014:58:37|
|73|斜三|60|眼睛斜了|2008-06-3014:58:37|
|74|中华之子|100|威武的不行了|2008-06-3014:58:37|
|75|大米|63|我爱吃|2008-06-3014:58:37|
|76|苹果|15|好吃|2008-06-3014:58:37|
+----+----------+-----+----------------------------+---------------------+
19rowsinset(0.00sec)

现在是达到了目的了,为啥中途要干掉唯一索引呢?因为set语法再有IGNORE的时候会忽略掉。

mysqlloaddata导出、导入csv



内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: