码迷,mamicode.com
首页 > 其他好文 > 详细

词频统计(30 分)

时间:2018-02-12 15:25:51      阅读:229      评论:0      收藏:0      [点我收藏+]

标签:code   off   ...   frequency   nbsp   下划线   get   main   this   

请编写程序,对一段英文文本,统计其中所有不同单词的个数,以及词频最大的前10%的单词。

所谓“单词”,是指由不超过80个单词字符组成的连续字符串,但长度超过15的单词将只截取保留前15个单词字符。而合法的“单词字符”为大小写字母、数字和下划线,其它字符均认为是单词分隔符。

输入格式:

输入给出一段非空文本,最后以符号#结尾。输入保证存在至少10个不同的单词。

输出格式:

在第一行中输出文本中所有不同单词的个数。注意“单词”不区分英文大小写,例如“PAT”和“pat”被认为是同一个单词。

随后按照词频递减的顺序,按照词频:单词的格式输出词频最大的前10%的单词。若有并列,则按递增字典序输出。

输入样例:

This is a test.

The word "this" is the word with the highest frequency.

Longlonglonglongword should be cut off, so is considered as the same as longlonglonglonee.  But this_8 is different than this, and this, and this...#
this line should be ignored.

输出样例:(注意:虽然单词the也出现了4次,但因为我们只要输出前10%(即23个单词中的前2个)单词,而按照字母序,the排第3位,所以不输出。)

23
5:this
4:is


map映射到数组,统计并排序。
#include <iostream>
#include <algorithm>
#include <map>
#include <cstring>
using namespace std;
struct str
{
    char s[16];
    int num;
}ans[10000];
int no = 1;
bool cmp(str a,str b)
{
    if(a.num == b.num)return strcmp(a.s,b.s) < 0;
    return a.num > b.num;
}
int main()
{
    char ch,s[16];
    int c = 0;
    map<string,int> p;
    while((ch = cin.get()) != #)
    {
        if(ch == _)
        {
            if(c < 15)s[c ++] = ch;
        }
        else if(isdigit(ch))
        {
            if(c < 15)s[c ++] = ch;
        }
        else if(isalpha(ch))
        {
            if(c < 15)s[c ++] = tolower(ch);
        }
        else
        {
            if(c)
            {
                s[c] = \0;
                c = 0;
                if(!p[s])
                {
                    strcpy(ans[no].s,s);
                    ans[no].num = 1;
                    p[s] = no ++;
                }
                else
                {
                    ans[p[s]].num ++;
                }
            }
        }
    }
    sort(ans + 1,ans + no,cmp);
    cout<<no - 1<<endl;
    for(int i = 1;i <= no / 10;i ++)
    {
        cout<<ans[i].num<<:<<ans[i].s<<endl;
    }
}

 

词频统计(30 分)

标签:code   off   ...   frequency   nbsp   下划线   get   main   this   

原文地址:https://www.cnblogs.com/8023spz/p/8444257.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!