利用shuf对数据记录进行随机采样
2014-08-01 12:23
155 查看
最近在用SVM为分类器做实验,但是发现数据量太大(2000k条记录)但是训练时间过长...让我足足等了1天的啊!有人指导说可以先进行一下随机采样,再训练,这样对训练结果不会有太大影响(这个待考证)。所以就对数据进行了一下降采样,具体方法如下:
其中,我的数据是在txt文件中存储的,基本格式是:
===========================================================================================================================
今天发现Ubuntu的软件库中居然有libsvm!直接
就可以安装得到了....并且不需要弄什么软连接或者环境变量就可以在命令行使用....还有有完整的manual page
并且发现这里还有一个工具:svm-subset,就可以完成随机下采样的工作
这真是极好的~~
shuf data | head -n 100000
其中,我的数据是在txt文件中存储的,基本格式是:
record 1 xxxxx record 2 xxxxx record 3 xxxxx record 4 xxxxx ........... record n xxxxx
===========================================================================================================================
今天发现Ubuntu的软件库中居然有libsvm!直接
sudo apt-get install libsvm-tools
就可以安装得到了....并且不需要弄什么软连接或者环境变量就可以在命令行使用....还有有完整的manual page
并且发现这里还有一个工具:svm-subset,就可以完成随机下采样的工作
这真是极好的~~
相关文章推荐
- 【利用python进行数据分析-学习记录】python-matplotlib中Basemap插件的安装
- Python: 利用Python进行数据分析 学习记录
- 利用python进行数据分析—数据清洗记录3,map,apply,
- 《利用python 进行数据分析》要点记录
- 操作jdbc利用集合和反射对数据表中的记录进行遍历
- 数据库_MySQL_利用 存储过程 对 数据表 中的 每一条记录 进行业务处理
- 利用 JZLib 对数据进行压缩以及解压缩
- 利用XSL对XML数据进行加密和大小写转换
- 利用XSL对XML数据进行加密和大小写转换
- 利用Log Explorer将你已经delete,truncate,drop过的数据进行恢复
- 利用J2ME里的RMS对记录进行排序
- 利用数组进行数据查找
- 利用J2ME里的RMS对记录进行排序
- Sql Server 中利用游标对table 的数据进行分组统计式输出…
- 利用J2ME里的RMS对记录进行排序
- 利用存储过程进行批量数据添加
- 利用XSL对XML数据进行加密和大小写转换
- 利用ASP实现Oracle数据记录的分页显示
- 请教各位大侠:利用数据管道进行数据迁移时碰到的问题。
- 利用J2ME里的RMS对记录进行排序