中文分词工具jieba的使用

时间：2018-04-03 23:56:32 阅读：206 评论：0 收藏：0 [点我收藏+]

标签：blog UI tchar from value python3 py3 uil art

中文分词工具jieba的使用

1.进入到安装了全文检索工具包的虚拟环境中
- /home/python/.virtualenvs/py3_django/lib/python3.5/site-packages/
- 进入到haystack/backends/中
2.创建ChineseAnalyzer.py文件

技术分享图片

 import jieba
 from whoosh.analysis import Tokenizer, Token

 class ChineseTokenizer(Tokenizer):
     def __call__(self, value, positions=False, chars=False,
                  keeporiginal=False, removestops=True,
                  start_pos=0, start_char=0, mode=‘‘, **kwargs):
         t = Token(positions, chars, removestops=removestops, mode=mode, **kwargs)
         seglist = jieba.cut(value, cut_all=True)
         for w in seglist:
             t.original = t.text = w
             t.boost = 1.0
             if positions:
                 t.pos = start_pos + value.find(w)
             if chars:
                 t.startchar = start_char + value.find(w)
                 t.endchar = start_char + value.find(w) + len(w)
             yield t

 def ChineseAnalyzer():
     return ChineseTokenizer()

3.拷贝whoosh_backend.py为whoosh_cn_backend.py
```
cp whoosh_backend.py whoosh_cn_backend.py
```
4.更改分词的类为ChineseAnalyzer
- 打开并编辑 whoosh_cn_backend.py
- 引入from .ChineseAnalyzer import ChineseAnalyzer
- 查找
```
  analyzer=StemmingAnalyzer()
  改为
  analyzer=ChineseAnalyzer()
```
5.更改分词引擎
6.重新创建索引数据
```
python manage.py rebuild_index
```

中文分词工具jieba的使用

标签：blog UI tchar from value python3 py3 uil art

原文地址：https://www.cnblogs.com/yuanzhengchi/p/8711258.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行