码迷,mamicode.com
首页 > 其他好文 > 详细

词频统计-功能二

时间:2017-09-17 19:01:48      阅读:186      评论:0      收藏:0      [点我收藏+]

标签:nbsp   amp   png   ref   问题:   str   empty   .sh   soft   

一.完成一个小程序

今天的任务是处理一本英文小说。我处理的英文小说是《war and peace》

本想着用多线程来解决的,发现看书还不是太懂,并不能真正动手编程。

我在编程的过程中主要遇到了以下两个问题:

1.在对整个英文小说进行单词总数统计遇见困难。

2.字符串数组的空字符串处理问题。因为我开始用空格来代替标点等不是英文单词来进行对单词分割,其中用到了正则表达式,后来统计对单词出现频数时,发现空格竟然排第一名,有4万多空格。

最终我的处理方式是使用List泛型集合的ForEach方法循环获取非空空字符串。

参考博客链接http://blog.csdn.net/orichisonic/article/details/49334397

这个博主提供了三种处理字符串数组的方法,大家感兴趣,可以学习一下。

我的实现代码如下:

namespace wd
{
    class Program
    {
        
        //static Dictionary<string, int> result = new Dictionary<string, int>(50000);
        static void Main(string[] args)
        {
            
            string theBookName;
            Console.Write(">wf  ");
            theBookName = Console.ReadLine();
            string path = @"F:\hello\war_and_peace";
            string[] fs = Directory.GetFiles(path);
            
            string rline = null;
            foreach (string file in fs)
            {
                rline = ReadFile(file);
                rline = rline.ToLower();
                //使用正则表达式
                //Regex regex = new Regex(@"\b[A-Za-z]+[A-Za-z0-9]*");
                rline=Regex.Replace(rline, @"[^a-zA-Z0-9\u4e00-\u9fa5\s]"," ");
                rline = Regex.Replace(rline, "[!@#$%^&*()`,./;‘:\"<>`?...]"," ");
                string[]S= rline.Split(‘ ‘);
                //使用lambda表达式筛选过滤掉数组中空字符串
                //S = S.Where(S >= !string.IsNullOrEmpty(S)).ToArray();
                //Compute(rline);
                // var outputResult = from KVP in result
                                 //  orderby KVP.Value descending
                                  // select new StringBuilder(KVP.Key).Append(" ").Append(KVP.Value);
                //foreach (var str in outputResult)
                // {
                //   Console.WriteLine(str);

                //}

                /*
                 *使用List泛型集合的ForEach方法循环获取非空空字符串
                 *这里使用了匿名方法
                 */
                List<string> list = new List<string>();
                S.ToList().ForEach(
                (s) =>
                {
                    if (!string.IsNullOrEmpty(s))
                    {
                        list.Add(s);
                    }
                }
                );
                S = list.ToArray();
                Console.WriteLine("total  " + rline.Length + " words");
                Console.WriteLine();
                Hashtable ha = new Hashtable();
                for (int i = 0; i < S.Length; i++)
                {
                    if (ha.ContainsKey(S[i]))
                    {
                        ha[S[i]] = (int)ha[S[i]] + 1;
                    }
                    else
                    {
                        ha.Add(S[i], 1);
                    }
                }
                string[] arrKey = new string[ha.Count];//存哈希表的键
                int[] arrValue = new int[ha.Count];//存哈希表的值
                ha.Keys.CopyTo(arrKey, 0);
                ha.Values.CopyTo(arrValue, 0);
                Array.Sort(arrValue, arrKey);//按哈希表的值进行排序
                wd.Program p = new wd.Program();
                p.ShowArr2(arrKey, arrValue);

                   // Console.ReadKey();

            }
        }
       
        //读取文件
        private static string ReadFile(string file)
        {
            string readLine;
            FileStream fs = new FileStream(file, FileMode.Open);
            StreamReader sr = new StreamReader(fs);
            readLine = sr.ReadToEnd();
            sr.Close();
            fs.Close();
            return readLine;
          
        }
        //统计文件中不重复的单词总数及每个单词的词频
        //public void CountEachWord(string arrkey, int arrvalue)
       // {
           // Hashtable ht = new Hashtable();
            //int count = 0;  //单词总数
           // StreamReader streamReader = new StreamReader(arrkey);
           // string line;
           // Regex regex = new Regex(@"\b[A-Za-z]+[A-Za-z0-9]*");
            //while ((line = streamReader.ReadLine()) != null)
          //  {
             //   MatchCollection matchCollection = regex.Matches(line);
              //  foreach (Match word in matchCollection)
             //   {
               //     string words = word.ToString();
                //    if (ht.Contains(words))
                //    {
               //         int j = Convert.ToInt32(ht[words]) + 1;
                 //       ht[words] = j;
                 //   }
                 //   else
                  //  {
                  //      ht.Add(words, 1);
                 //   }
              //  }
          //  }
            //输出单词总数
         //   count = ht.Keys.Count;
           // Console.WriteLine("total  " + count + " words");
      // }

       
        //输出
        public void ShowArr1(string[] keyArray, int[] valueArray)
        {
            for (int i = keyArray.Length-1; i >=0; i--)
            {
                Console.WriteLine(keyArray[i].ToString().PadRight(15));
                Console.WriteLine(valueArray[i].ToString());
            }
        }
        //
        public void ShowArr2(string[] keyArray, int[] valueArray)
        {
            if (keyArray.Length < 10)
            {
                ShowArr1( keyArray, valueArray);
            }
            else
            {
                int sum = 0;
                for (int j = keyArray.Length - 1; j >=0; j--)
                {
                    Console.Write(keyArray[j].ToString().PadRight(15));
                    Console.WriteLine(valueArray[j].ToString());
                    sum++;
                    if (sum >= 10) break;
                }
            
            }

        }
       
    }
}

 

实现的截图如下:

技术分享

二.例行报告

1.PSP(personal software process)个人软件过程

类型 任务 开始时间 结束时间 中断时间 净时间
看书 学习多线程和泛型 2017.9.17 10:30 2017.9.17 12:00 90min
编程 写代码 2017.9.17  14:30 2017.9.17 17:00 回复消息5min,厕所10min 2h15min
写作 写随笔 2017.9.17 17:00 2017.9.17 17:30 30min

2.进度条

  代码行 博文字数 知识点
第二周 166 750 见博客词频统计-功能二

 

词频统计-功能二

标签:nbsp   amp   png   ref   问题:   str   empty   .sh   soft   

原文地址:http://www.cnblogs.com/huyourongmonkey/p/7536388.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!