标签:
很有段时间没写此系列了,今天我们来说Trie树,Trie树的名字有很多,比如字典树,前缀树等等。
一:概念
下面我们有and,as,at,cn,com这些关键词,那么如何构建trie树呢?
从上面的图中,我们或多或少的可以发现一些好玩的特性。
第一:根节点不包含字符,除根节点外的每一个子节点都包含一个字符。
第二:从根节点到某一节点,路径上经过的字符连接起来,就是该节点对应的字符串。
第三:每个单词的公共前缀作为一个字符节点保存。
二:使用范围
既然学Trie树,我们肯定要知道这玩意是用来干嘛的。
第一:词频统计。
可能有人要说了,词频统计简单啊,一个hash或者一个堆就可以打完收工,但问题来了,如果内存有限呢?还能这么
玩吗?所以这里我们就可以用trie树来压缩下空间,因为公共前缀都是用一个节点保存的。
第二: 前缀匹配
就拿上面的图来说吧,如果我想获取所有以"a"开头的字符串,从图中可以很明显的看到是:and,as,at,如果不用trie树,
你该怎么做呢?很显然朴素的做法时间复杂度为O(N2) ,那么用Trie树就不一样了,它可以做到h,h为你检索单词的长度,
可以说这是秒杀的效果。
举个例子:现有一个编号为1的字符串”and“,我们要插入到trie树中,采用动态规划的思想,将编号”1“计入到每个途径的节点中,
那么以后我们要找”a“,”an“,”and"为前缀的字符串的编号将会轻而易举。
三:实际操作
到现在为止,我想大家已经对trie树有了大概的掌握,下面我们看看如何来实现。
package Algorithm; public class Trie { private int SIZE=26; private TrieNode root;//字典树的根 Trie(){//初始化字典树 root=new TrieNode(); } private class TrieNode{//字典树节点 private int num;//有多少单词通过这个节点,即节点字符出现的次数 private TrieNode[] son;//所有的儿子节点 private boolean isEnd;//是不是最后一个节点 private char val;//节点的值 TrieNode(){ num=1; son=new TrieNode[SIZE]; isEnd=false; } } //建立字典树 public void insert(String str){//在字典树中插入一个单词 if(str==null||str.length()==0){ return; } TrieNode node=root; char[]letters=str.toCharArray(); for(int i=0,len=str.length();i<len;i++){ int pos=letters[i]-‘a‘; if(node.son[pos]==null){ node.son[pos]=new TrieNode(); node.son[pos].val=letters[i]; }else{ node.son[pos].num++; } node=node.son[pos]; } node.isEnd=true; } //计算单词前缀的数量 public int countPrefix(String prefix){ if(prefix==null||prefix.length()==0){ return-1; } TrieNode node=root; char[]letters=prefix.toCharArray(); for(int i=0,len=prefix.length();i<len;i++){ int pos=letters[i]-‘a‘; if(node.son[pos]==null){ return 0; } else{ node=node.son[pos]; } } return node.num; } //在字典树中查找一个完全匹配的单词. public boolean has(String str){ if(str==null||str.length()==0){ return false; } TrieNode node=root; char[]letters=str.toCharArray(); for(int i=0,len=str.length();i<len;i++){ int pos=letters[i]-‘a‘; if(node.son[pos]!=null){ node=node.son[pos]; }else{ return false; } } return node.isEnd; } //前序遍历字典树. public void preTraverse(TrieNode node){ if(node!=null){ System.out.print(node.val+"-"); for(TrieNode child:node.son){ preTraverse(child); } } } public TrieNode getRoot(){ return this.root; } public static void main(String[]args){ Trie tree=new Trie(); String[]strs={"banana","band","bee","absolute","acm",}; String[]prefix={"ba","b","band","abc",}; for(String str:strs){ tree.insert(str); } System.out.println(tree.has("abc")); tree.preTraverse(tree.getRoot()); System.out.println(); //tree.printAllWords(); for(String pre:prefix){ int num=tree.countPrefix(pre); System.out.println(pre+""+num); } } }
标签:
原文地址:http://my.oschina.net/elain/blog/503167