Java---划分训练集与测试集
2019-08-20 17:40
148 查看
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_41982466/article/details/99865084
使用Java完成文本数据的训练集与测试集划分
如:总数据1000条文本数据,划分成训练集800条,测试集200条
public class data_split { /** 测试集比例 */ public static double test_percent = 0.2; public static void main(String[] args) throws Exception { splitData(source_path,train_path,test_path); } /** * 写入训练集与测试集 * @param class_name * @throws Exception */ public static void splitData(String source_path,String train_path,String test_path) throws Exception { long allNum = getLineNumber(source_path); int end = (int) ((int)allNum * (1 - test_percent)); // 打开文件 FileInputStream fis = new FileInputStream(source_path); BufferedReader br = new BufferedReader(new InputStreamReader(fis, "UTF-8")); // 写入训练集 FileWriter fw = new FileWriter(train_path, true); PrintWriter out = new PrintWriter(fw); String line = ""; int count = 0; while ((line = br.readLine()) != null) { out.write(line); out.println(); count ++; if (count == end) break; } // 关闭文件 fw.close(); out.close(); // 写入测试集 FileWriter fw2 = new FileWriter(test_path, true); PrintWriter out2 = new PrintWriter(fw2); while ((line = br.readLine()) != null) { out2.write(line); out2.println(); } // 关闭文件 fw2.close(); out2.close(); br.close(); fis.close(); } /** * 获取文件的行数 * @param file * @return */ public static long getLineNumber(String path) { File file = new File(path); if (file.exists()) { try { FileReader fileReader = new FileReader(file); LineNumberReader lineNumberReader = new LineNumberReader(fileReader); lineNumberReader.skip(Long.MAX_VALUE); long lines = lineNumberReader.getLineNumber() + 1; fileReader.close(); lineNumberReader.close(); return lines; } catch (IOException e) { e.printStackTrace(); } } return 0; } }
完!
相关文章推荐
- 使用Java随机划分数据集为训练集和测试集
- Sklearn-train_test_split随机划分训练集和测试集
- 机器学习中训练集、验证集(开发集)、测试集如何划分
- sklearn:随机划分训练集和测试集
- 训练集、验证集、测试集的划分方法
- 数据集的划分--训练集、验证集和测试集
- 【七】机器学习之路——训练集、测试集及如何划分
- #使用python处理分割数据集,并按比例随机划分训练集与测试集
- Sklearn-train_test_split随机划分训练集和测试集
- Sklearn中的数据划分方法(划分训练集与测试集)
- python 划分数据集为训练集和测试集
- Sklearn-train_test_split随机划分训练集和测试集
- 数据的划分——训练集,验证集,测试集
- Python数据预处理—训练集和测试集数据划分
- Sklearn-train_test_split随机划分训练集和测试集
- r语言中怎么划分训练集和测试集
- 【cl】预处理&划分测试集、训练集
- Sklearn-train_test_split随机划分训练集和测试集
- Matlab划分测试集和训练集
- 划分训练集和测试集和验证集