IK分词默认的分词结果是没有标点符号的,看了一番源码。发现直接修改源代码加入标点需要改动多处。
所以想到了一个策略,从外部包一层代码,先让ik分词,然后检测它的前后是否有遗漏符号,然后将符号加入分词结果中。
当然,大家如果有好的方法,请上交!
下边是源码部分:
public class IKDemo { public static void main(String[] args) throws Exception { String input = "^_^ 你好,ik分词!"; Lexeme beforeWord = null; Lexeme currentWord = null; StringBuffer sb = new StringBuffer(); IKSegmenter ik = new IKSegmenter(new StringReader(input), true); System.out.println("原句:"+input); while ((currentWord = ik.next()) != null) { sb.append(appendSymbol(input, beforeWord, currentWord)); beforeWord = currentWord; } sb.append(appendSymbol(input, beforeWord, currentWord)); System.out.println("分词:"+sb.toString().replaceAll(" +", " ").trim()); } /** * 补全IK分词遗漏的符号 * @param line * @param before * @param cur * @return */ public static String appendSymbol(String line, Lexeme before, Lexeme cur) { String res = ""; if (before == null) {// 第一个词前边的符号 res = cur.getLexemeText() + " "; int start = cur.getBegin(); if (start > 0) { String left =appendWhiteSpace(line.substring(0, start)); res = left + res; } } else if (cur == null) {// 最后一个词后边的符号 int end = before.getEndPosition(); if (end < line.length()) { String right =appendWhiteSpace( line.substring(before.getEndPosition())); res = right; } } else { // 和前一个词之间的符号 res = cur.getLexemeText() + " "; int beforeEnd = before.getEndPosition(); if (cur.getBegin() > beforeEnd) { String mid = appendWhiteSpace(line.substring(beforeEnd, cur.getBegin())); res = mid + res; } } return res; } /** * 你好吗 -> 你 好 吗 * @param src * @return */ public static String appendWhiteSpace(String src){ String dst=""; for (char c : src.toCharArray()) { dst += c + " "; } return dst; } }
输出结果:
原句:^_^ 你好,ik分词! 分词:^ _ ^ 你好 , ik 分 词 !
版权声明:本文为博主原创文章,未经博主允许不得转载。
原文地址:http://blog.csdn.net/loyopp/article/details/47758247