码迷,mamicode.com
首页 > 编程语言 > 详细

Java机械分词

时间:2017-07-23 10:13:32      阅读:203      评论:0      收藏:0      [点我收藏+]

标签:als   adl   append   读取   false   一段   java   i++   sys   

这是我们做的一个小作业,不多说

直接附上我写的代码:

 

    public void Zheng() {
        try {
            BufferedReader bre = null;
            //String file = "d.txt";
            String file = "Dict.txt";
            bre = new BufferedReader(new FileReader(file));
            String line;
            try {
                while ((line = bre.readLine()) != null) // 判断最后一行不存在,为空结束循环
                {
                    temp.add(line);
                    // System.out.println(line);// 原样输出读到的内容
                }

                bre.close();
            } catch (IOException e) {
                e.printStackTrace();
            }

        } catch (FileNotFoundException e) {
            System.out.println("未成功读取文件");
            e.printStackTrace();
        }

        String sub_str;
        while (start < total_len) {
            boolean flag = false;
            tmp_len = start + max_len <= total_len ? max_len : total_len - start;
            label: while (tmp_len > 0) {
                // System.out.println(1);
                sub_str = receive.substring(start, start + tmp_len);
                // System.out.println(sub_str);
                for (i = 0; i < temp.size(); i++) {
                    if (sub_str.equals(temp.get(i))) {
                        flag = true;
                    }
                }

                if (flag == true) {
                    words.add(receive.substring(start, start + tmp_len));
                    start = start + tmp_len;
                    break label;
                } else {
                    tmp_len = tmp_len - 1;
                    // System.out.println(tmp_len);
                }

                /*
                 * if sub_str in dict: words.append(setence[start : start +
                 * tmp_len]) start = start + tmp_len break else: tmp_len =
                 * tmp_len -1
                 */
            }
            if (tmp_len == 0) {
                words.add(receive.substring(start, start + 1));
                start = start + 1;
            }

        }

效果就是按照词库中的词将一段语句分割开来。

附上词库的位置:

 https://pan.baidu.com/s/1pLBKer5

 

Java机械分词

标签:als   adl   append   读取   false   一段   java   i++   sys   

原文地址:http://www.cnblogs.com/zhichun/p/7223546.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!