java 在一段英文文本中计算每个单词出现的次数
2016-02-29 11:13
627 查看
目前自己总结了以下方式:
1,将文本读出为一个字符串,使用indexof 和 substring 进行递归的搜索切割计算每次找到同一单词的次数,注意排重,每次查找新的单词时候,需要判断这个单词是否已经计算过出现的次数。
2,将文本的单词切割并维护到一个MAP中,已单词为KEY 对应的VALUE为这个单词出现的次数,然后启用多线程,结合方法1 进行 查找计算。
3.如果文本很大,达到了大数据的量级,可以使用hadoop+hafs等大数据处理框架 编写map+reduce程序进行处理,具体实现网上很多。
以上只是可实现的思路,具体实现可根据以上思路作为引子。
1,将文本读出为一个字符串,使用indexof 和 substring 进行递归的搜索切割计算每次找到同一单词的次数,注意排重,每次查找新的单词时候,需要判断这个单词是否已经计算过出现的次数。
2,将文本的单词切割并维护到一个MAP中,已单词为KEY 对应的VALUE为这个单词出现的次数,然后启用多线程,结合方法1 进行 查找计算。
3.如果文本很大,达到了大数据的量级,可以使用hadoop+hafs等大数据处理框架 编写map+reduce程序进行处理,具体实现网上很多。
以上只是可实现的思路,具体实现可根据以上思路作为引子。
相关文章推荐
- Java字符串中“” , “ ”,和null的区别
- 线程
- java异常之Throwable源码
- Java设计模式
- 【leetcode】【33】Search in Rotated Sorted Array
- java中栈 堆 寄存器 静态变量 和常量内存解析
- Eclipse运行时提示“Failed to load the JNI shared library /Java/jre6/bin/client/jvm.dll”的一个解决方案
- java回调机制
- spring MVC4 配置详解(个人记录)
- java 中遍历hashmap 和hashset 的方法
- webservice 客户端对应xml解析
- Java反射机制
- Java大字节顺转换小字节顺
- Java 学习笔记 ------第六章 继承与多态
- Spring中Assert工具类的用法
- eclipse启动无响应,停留在Loading workbench状态
- OSWAF 的JavaEE实现
- springMvc架构流程图及常用注解总结
- 深入探讨Java多线程中的volatile变量
- eclipse中添加mybatis generator插件教程