C#统计英文文本中的单词数并排序
2014-03-26 21:44
204 查看
思路如下: 1.使用的Hashtable(高效)集合,记录每个单词出现的次数 2.采用ArrayList对Hashtable中的Keys按字母序排列 3.排序使用插入排序(稳定)
public void StatisticsWords(string path) { if (!File.Exists(path)) { Console.WriteLine("文件不存在!"); return; } Hashtable ht = new Hashtable(StringComparer.OrdinalIgnoreCase); StreamReader sr = new StreamReader(path, System.Text.Encoding.UTF8); string line = sr.ReadLine(); string[] wordArr = null; int num = 0; while (line.Length > 0) { // MatchCollection mc = Regex.Matches(line, @"\b[a-z]+", RegexOptions.Compiled | RegexOptions.IgnoreCase); //foreach (Match m in mc) //{ // if (ht.ContainsKey(m.Value)) // { // num = Convert.ToInt32(ht[m.Value]) + 1; // ht[m.Value] = num; // } // else // { // ht.Add(m.Value, 1); // } //} //line = sr.ReadLine(); wordArr = line.Split(' '); foreach (string s in wordArr) { if (s.Length == 0) continue; //去除标点 line = Regex.Replace(line, @"[\p{P}*]", "", RegexOptions.Compiled); //将单词加入哈希表 if (ht.ContainsKey(s)) { num = Convert.ToInt32(ht[s]) + 1; ht[s] = num; } else { ht.Add(s, 1); } } line = sr.ReadLine(); } ArrayList keysList = new ArrayList(ht.Keys); //对Hashtable中的Keys按字母序排列 keysList.Sort(); //按次数进行插入排序【稳定排序】,所以相同次数的单词依旧是字母序 string tmp = String.Empty; int valueTmp = 0; for (int i = 1; i < keysList.Count; i++) { tmp = keysList[i].ToString(); valueTmp = (int)ht[keysList[i]];//次数 int j = i; while (j > 0 && valueTmp > (int)ht[keysList[j - 1]]) { keysList[j] = keysList[j - 1]; j--; } keysList[j] = tmp;//j=0 } //打印出来 foreach (object item in keysList) { Console.WriteLine((string)item + ":" + (string)ht[item]); } }
相关文章推荐
- c++ 统计英文文本中每个单词的词频并且按照词频对每行排序
- c++ 统计英文文本中每个单词的词频并且按照词频对每行排序
- 统计英文文本单词出现频率
- java实现读取一篇英文文章,统计其中每个单词出现的次数并排序输出
- IOS菜鸟的所感所思(十一)——统计文本中单词出现的次数并按照次数高低排序
- 统计一个英文文本的单词词频
- Shell编程之统计英文文本的单词及频数
- Java 文件统计:编写程序,统计英文文本文件中的字符数目和单词数目。程序运行时,输入要统计的文件的名称,程序处理后输出字符数目和单词数目
- 统计文本英文单词总个数,并列出每个单词的个数
- 编程统计一个英文文本文件中单词词频
- C语言输入英文统计单词的出现的频率排序
- 统计英文文本文档中前十个出现频率最多的单词
- 英文单词个数统计(从多到少排序)
- 输入一段英文文本,用程序统计出现频率最高和最低的两个单词;
- C#统计文章中单词的重复次数,并且按照次数从高到低排序返回(无法处理中文)
- 统计一个英文文本的单词出现的频率(有标点符号的)
- 【代码】统计文件中,不同字符出现的次数(可排序,没有处理英文单词、数字和大小写)
- C#统计文本单词的个数
- 编译器DIY之———统计英文文本中的单词数,字符数和行数