wc命令
用来统计文件的字符数、行数、单词数等,很常用的命令(面试的时候竟然没想起来这个命令,我是有多么挫。。。)
sort进行排序的单位是行,它会从每行的第一个字母开始比较,按照第一个字母的ASCII值从小到大排列行;若某两行的第一个字母相同,则比较它们的第二个字母,以此类推。但是,这种排序会受到locale环境变量的影响,不一定出现想要的结果...
分类:
系统相关 时间:
2015-06-22 06:29:19
阅读次数:
180
题意:给出若干个句子,每个句子包含多个单词。确定第一句是英文,第二句是法文。后面的句子两者都有可能。两个语种会有重复单词。现在要找出一种分配方法(给每个句子指定其文种),使得既是英文也是法文的单词数量最少。分析:网络流的最小割。建图方法如下,每个句子一个点。每个单词一个点。句子向其所属的单词连双向无...
分类:
其他好文 时间:
2015-06-18 11:07:26
阅读次数:
141
(一)一个例子
本示例使用storm运行经典的wordcount程序,拓扑如下:
sentence-spout—>split-bolt—>count-bolt—>report-bolt
分别完成句子的产生、拆分出单词、单词数量统计、统计结果输出
完整代码请见 https://github.com/jinhong-lu/stormdemo
以下是关键代码的分析。
1、创建spout
...
给定一个词典,要求求出其中所有的复合词,即恰好有两个单词连接而成的词
trie存储以该单词为前缀的单词数量,然后对于每个单词,看在字典中的以该单词为前缀的单词“减去”原单词剩下的单词是否在字典中,如果是储存这个答案到ans的set中
#include
#include
#include
#include
#include
#include
#include
#inc...
分类:
其他好文 时间:
2015-06-15 14:43:58
阅读次数:
175
监控指定文件夹,读取文件(新文件动态读取)里的内容,统计单词的数量。FileSpout.java,监控文件夹,读取新文件内容1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484...
分类:
其他好文 时间:
2015-06-07 23:12:16
阅读次数:
294
一亩三分地里看到的。input: 一个文件,包含了很多单词,可以全部装入内存一个target number : toutput: 一个单词的最小set,这些单词的出现的频率的总和大于等于t首先单词数统计可以用hash,然后,直观的看只能排序后从大到小选,实际上用线性找第k大的那个类似快排的算法也能做...
分类:
编程语言 时间:
2015-05-28 19:40:01
阅读次数:
199
1. 统计工具wc -w : 单词数 ;-l :行数2. 解压 tar -xvf file.tar tar -zxvf file.tar.gz tar -jxvf file file.tar.bz2 tar -Zxvf file.tar.Z unrar file.rar unzip f...
分类:
系统相关 时间:
2015-05-22 21:13:57
阅读次数:
146
题意是:
??
Ignatius最近遇到一个难题,老师交给他很多单词(只有小写字母组成,不会有重复的单词出现),现在老师要他统计出以某个字符串为前缀的单词数量(单词本身也是自己的前缀).
思路很简单,前缀数组入门题,对于每个结点,用val数组记录当前字符串为前缀的字符串数量,之后就是插入,查询操作了
代码如下: #include
#include
#include...
分类:
其他好文 时间:
2015-05-18 23:06:43
阅读次数:
152
字典树就是将一个个单词按照字母顺序建成树,可以用于单词去重、计算每种单词的出现次数、计算共出现多少种单词 1 #include 2 #include 3 const int maxm=5050; //所有单词的总长度,约总单词数*5 4 5 struct trie{ 6 in...
分类:
其他好文 时间:
2015-05-17 07:04:37
阅读次数:
197
Design a data structure that supports the following two operations:void addWord(word)bool search(word)search(word) can search a literal word or a regu...
分类:
其他好文 时间:
2015-05-16 06:44:42
阅读次数:
112