标签:
很有段时间没写此系列了,今天我们来说Trie树,Trie树的名字有很多,比如字典树,前缀树等等。
一:概念
下面我们有and,as,at,cn,com这些关键词,那么如何构建trie树呢?

从上面的图中,我们或多或少的可以发现一些好玩的特性。
第一:根节点不包含字符,除根节点外的每一个子节点都包含一个字符。
第二:从根节点到某一节点,路径上经过的字符连接起来,就是该节点对应的字符串。
第三:每个单词的公共前缀作为一个字符节点保存。
二:使用范围
既然学Trie树,我们肯定要知道这玩意是用来干嘛的。
第一:词频统计。
可能有人要说了,词频统计简单啊,一个hash或者一个堆就可以打完收工,但问题来了,如果内存有限呢?还能这么
玩吗?所以这里我们就可以用trie树来压缩下空间,因为公共前缀都是用一个节点保存的。
第二: 前缀匹配
就拿上面的图来说吧,如果我想获取所有以"a"开头的字符串,从图中可以很明显的看到是:and,as,at,如果不用trie树,
你该怎么做呢?很显然朴素的做法时间复杂度为O(N2) ,那么用Trie树就不一样了,它可以做到h,h为你检索单词的长度,
可以说这是秒杀的效果。
举个例子:现有一个编号为1的字符串”and“,我们要插入到trie树中,采用动态规划的思想,将编号”1“计入到每个途径的节点中,
那么以后我们要找”a“,”an“,”and"为前缀的字符串的编号将会轻而易举。

三:实际操作
到现在为止,我想大家已经对trie树有了大概的掌握,下面我们看看如何来实现。
package Algorithm;
public class Trie {
private int SIZE=26;
private TrieNode root;//字典树的根
Trie(){//初始化字典树
root=new TrieNode();
}
private class TrieNode{//字典树节点
private int num;//有多少单词通过这个节点,即节点字符出现的次数
private TrieNode[] son;//所有的儿子节点
private boolean isEnd;//是不是最后一个节点
private char val;//节点的值
TrieNode(){
num=1;
son=new TrieNode[SIZE];
isEnd=false;
}
}
//建立字典树
public void insert(String str){//在字典树中插入一个单词
if(str==null||str.length()==0){
return;
}
TrieNode node=root;
char[]letters=str.toCharArray();
for(int i=0,len=str.length();i<len;i++){
int pos=letters[i]-‘a‘;
if(node.son[pos]==null){
node.son[pos]=new TrieNode();
node.son[pos].val=letters[i];
}else{
node.son[pos].num++;
}
node=node.son[pos];
}
node.isEnd=true;
}
//计算单词前缀的数量
public int countPrefix(String prefix){
if(prefix==null||prefix.length()==0){
return-1;
}
TrieNode node=root;
char[]letters=prefix.toCharArray();
for(int i=0,len=prefix.length();i<len;i++){
int pos=letters[i]-‘a‘;
if(node.son[pos]==null){
return 0;
}
else{
node=node.son[pos];
}
}
return node.num;
}
//在字典树中查找一个完全匹配的单词.
public boolean has(String str){
if(str==null||str.length()==0){
return false;
}
TrieNode node=root;
char[]letters=str.toCharArray();
for(int i=0,len=str.length();i<len;i++){
int pos=letters[i]-‘a‘;
if(node.son[pos]!=null){
node=node.son[pos];
}else{
return false;
}
}
return node.isEnd;
}
//前序遍历字典树.
public void preTraverse(TrieNode node){
if(node!=null){
System.out.print(node.val+"-");
for(TrieNode child:node.son){
preTraverse(child);
}
}
}
public TrieNode getRoot(){
return this.root;
}
public static void main(String[]args){
Trie tree=new Trie();
String[]strs={"banana","band","bee","absolute","acm",};
String[]prefix={"ba","b","band","abc",};
for(String str:strs){
tree.insert(str);
}
System.out.println(tree.has("abc"));
tree.preTraverse(tree.getRoot());
System.out.println();
//tree.printAllWords();
for(String pre:prefix){
int num=tree.countPrefix(pre);
System.out.println(pre+""+num);
}
}
}标签:
原文地址:http://my.oschina.net/elain/blog/503167