之前都是用计算所的分词工具进行分词,效果不错但是比较麻烦,最近开始用Python的“结巴”模块进行分词,感觉非常方便。这里将我写的一些小程序分享给大家,希望对大家有所帮助。
下面这个程序是对一个文本文件里的内容进行分词的程序:test.py
#!/usr/bin/python
#-*- encoding:utf-8 -*-
import jieba ...
分类:
编程语言 时间:
2014-06-18 06:00:59
阅读次数:
412
python的scikit-learn包下有计算tf-idf的api,研究了下做个笔记
1 安装scikit-learn包
sudo pip install scikit-learn
2 中文分词采用的jieba分词,安装jieba分词包
sudo pip install jieba
3 关于jieba分词的使用非常简单,参考这里,关键的语句就是(这里简单试水,不追求效...
分类:
编程语言 时间:
2014-06-16 14:40:05
阅读次数:
437