基于python sqlite3将KDD-99数据集插入数据库中
2016-05-06 09:29
441 查看
hello,又是我,哈哈
转载记得标明出处
/article/10057917.html
直接进入正文
然后思想啥的理论的我就不说了
自己理解呗最后贴上代码github位置
多啦A梦传送门
转载记得标明出处
/article/10057917.html
今天来聊聊怎样使用python中的sqlite3模块将KDD-99数据集插入数据库中
sqlite3和sql语句我就不赘述了直接进入正文
core值
因为插入数据库操作的IO速率一直很慢很慢,所有这里我实现了通过一个量core控制插入的线程数然后,core值也是生成的数据库个数.core在代码的42行修改.你也可以修改为1,就是一个线程一个数据库,也可以32,那就是32个线程和拆分生成32个数据库.但是提醒一下,一个线程处理kdd-99-10-precent也是很慢低...然后思想啥的理论的我就不说了
自己理解呗最后贴上代码github位置
多啦A梦传送门
这就是我开了16个core的输出
然后这里有sqliteman打开显示如下
可以看出已经插进去了
还是那句话,对代码有好的意见或者啥的,可以联系我,邮件联系.然后,说句实话,在大数据分析里使用数据库是个不好的想法,用spark也好,hadoop也好,还是csv文件来的顺畅一些.因为光插入这些数据都得两天...没错..还不如直接csv读取.虽说从数据库中读取数据很快,而且sqlite也是标称是与fopen()竞争的,但是插入的花销太大.所以后来我对kdd-99数据集的大数据分析是建立在csv文件的基础上的.相关文章推荐
- Python selenium爬虫
- 使用python将KDD-99中的文本替换为数值形式
- 基于python一个分发小脚本
- python str和repr的区别
- Python标准库:内置函数eval(expression, globals=None, locals=None)
- python日志记录-logging模块
- python切片详解
- Python_爬虫
- Python 装饰器
- python中matplotlib绘图中文显示问题
- Python 迭代器工具包【推荐】
- Python 类与元类的深度挖掘 I【经验】
- Python 类与元类的深度挖掘 II【经验】
- Python进阶必读博文视频教程汇总
- python 发送邮件
- windows下Python3使用Scrapy问题
- python 安装与文本编辑
- Python 生产者和消费者模型
- 《Web接口开发与自动化测试 -- 基于Python语言》---现已出版。
- python 类中的__nozero__ ,__len__ 重写,可以定义对象的布尔值是True or False