IK分词加入标点符号

时间：2015-08-18 21:27:54 阅读：133 评论：0 收藏：0 [点我收藏+]

IK分词默认的分词结果是没有标点符号的，看了一番源码。发现直接修改源代码加入标点需要改动多处。

所以想到了一个策略，从外部包一层代码，先让ik分词，然后检测它的前后是否有遗漏符号，然后将符号加入分词结果中。

当然，大家如果有好的方法，请上交！

下边是源码部分：

public class IKDemo {

	public static void main(String[] args) throws Exception {
		String input = "^_^ 你好，ik分词！";
		Lexeme beforeWord = null;
		Lexeme currentWord = null;
		StringBuffer sb = new StringBuffer();
		IKSegmenter ik = new IKSegmenter(new StringReader(input), true);
		System.out.println("原句："+input);
		while ((currentWord = ik.next()) != null) {
			sb.append(appendSymbol(input, beforeWord, currentWord));
			beforeWord = currentWord;
		}
		sb.append(appendSymbol(input, beforeWord, currentWord));
		System.out.println("分词："+sb.toString().replaceAll(" +", " ").trim());
	}
	/**
	 * 补全IK分词遗漏的符号
	 * @param line 
	 * @param before
	 * @param cur
	 * @return
	 */
	public static String appendSymbol(String line, Lexeme before, Lexeme cur) {
		String res = "";
		if (before == null) {// 第一个词前边的符号
			res = cur.getLexemeText() + " ";
			int start = cur.getBegin();
			if (start > 0) {
				String left =appendWhiteSpace(line.substring(0, start));
				res = left + res;
			}
		} else if (cur == null) {// 最后一个词后边的符号
			int end = before.getEndPosition();
			if (end < line.length()) {
				String right =appendWhiteSpace( line.substring(before.getEndPosition()));
				res = right;
			}
		} else { // 和前一个词之间的符号
			res = cur.getLexemeText() + " ";
			int beforeEnd = before.getEndPosition();
			if (cur.getBegin() > beforeEnd) {
				String mid = appendWhiteSpace(line.substring(beforeEnd, cur.getBegin()));
				res = mid + res;
			}
		}
		return res;
	}
	/**
	 * 你好吗 -> 你 好 吗 
	 * @param src
	 * @return
	 */
	public static String appendWhiteSpace(String src){
		String dst="";
		for (char c : src.toCharArray()) {
			dst += c + " ";
		}
		return dst;
	}
}

输出结果：

原句：^_^ 你好，ik分词！
分词：^ _ ^ 你好 ， ik 分 词 ！

IK分词加入标点符号

标签：ik分词 ik分词加标点 ik分词标点 ik标点

原文地址：http://blog.csdn.net/loyopp/article/details/47758247

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行