您的位置:首页 > 编程语言 > Python开发

基于python sqlite3将KDD-99数据集插入数据库中

2016-05-06 09:29 441 查看
hello,又是我,哈哈

转载记得标明出处

/article/10057917.html

今天来聊聊怎样使用python中的sqlite3模块将KDD-99数据集插入数据库中

sqlite3和sql语句我就不赘述了

直接进入正文

core值

因为插入数据库操作的IO速率一直很慢很慢,所有这里我实现了通过一个量core控制插入的线程数然后,core值也是生成的数据库个数.core在代码的42行修改.你也可以修改为1,就是一个线程一个数据库,也可以32,那就是32个线程和拆分生成32个数据库.但是提醒一下,一个线程处理kdd-99-10-precent也是很慢低...

然后思想啥的理论的我就不说了

自己理解呗最后贴上代码github位置

多啦A梦传送门



这就是我开了16个core的输出

然后这里有sqliteman打开显示如下



可以看出已经插进去了

还是那句话,对代码有好的意见或者啥的,可以联系我,邮件联系.然后,说句实话,在大数据分析里使用数据库是个不好的想法,用spark也好,hadoop也好,还是csv文件来的顺畅一些.因为光插入这些数据都得两天...没错..还不如直接csv读取.虽说从数据库中读取数据很快,而且sqlite也是标称是与fopen()竞争的,但是插入的花销太大.所以后来我对kdd-99数据集的大数据分析是建立在csv文件的基础上的.
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: