jieba是一个开源的中文分词库,这几天看了下源码,就做下记录。
下载jieba后,tree得到主要部分的目录树结构如下:
├── jieba
│ ├── analyse
│ ...
分类:
其他好文 时间:
2016-09-14 12:58:01
阅读次数:
1607
BagOfWords: 1. 见上一篇jieba分词。 2. 见上篇,读取分词后文件 3. 统计词频并表示成向量: sklearn工具包方法: ...
分类:
其他好文 时间:
2016-06-23 12:38:16
阅读次数:
160
这篇文章主要是爬取百度5A景区摘要信息,再利用Jieba分词工具进行中文分词,最后提出文本聚类算法的一些概念知识。一. Selenium爬取百度百科摘要 二. Jieba中文分词 1.安装及入门介绍 2.添加自定义词典 3.关键词提取 4.对百度百科获取摘要分词 5.去除停用词 三. 基于VSM的文...
分类:
编程语言 时间:
2015-12-18 06:49:30
阅读次数:
8948
通过jieba分词,提取频率较高的关键词。 import?jieba.analyse
strx?=?‘网络让我们之间的距离变的如此之近,也同时让我们变的如此遥远。世界上最远的距离不是南极到北极,也不是喜马拉雅之巅到马里亚纳之渊;而...
分类:
其他好文 时间:
2015-11-09 19:26:26
阅读次数:
190
Jieba分词包(三)——基于词频最大切分组合
在前面,我们已经知道dict中所有的单词和词频信息已经存在了一个trie树中,并且需要分词的句子已经构建成了一个DAG图,构建的过程也运用了dict。那么这次我们来说如何基于每句话的DAG图,找到一个组合路径,使得该组合最合理(即打分最高)?
我们直接针对Jieba分词的源代码来解释,其中已经有了很多注释:...
分类:
其他好文 时间:
2014-12-10 18:14:46
阅读次数:
379
描述了使用pyInstaller打包使用jieba分词的文件时出现的一种错误,分析了导致该错误的原因,最后给出了解决方案。
分类:
其他好文 时间:
2014-11-16 18:38:09
阅读次数:
1708
1.背景 最近参加了一个评测,是关于新闻个性化推荐。说白了就是给你一个人的浏览记录,预测他下一次的浏览记录。花了一周时间写了一个集成系统,可以一键推荐新闻,但是准确率比较不理想,所以发到这里希望大家给与一些建议。用到的分词部分的代码借用的jieba分词。数据集和代码在下面会给出。2.数据集一共五个字段,以tab隔开。分别是user编号,news编号,时间编号,新闻标题,对应当前月份的日...
分类:
编程语言 时间:
2014-09-25 10:43:58
阅读次数:
947
python的scikit-learn包下有计算tf-idf的api,研究了下做个笔记
1 安装scikit-learn包
sudo pip install scikit-learn
2 中文分词采用的jieba分词,安装jieba分词包
sudo pip install jieba
3 关于jieba分词的使用非常简单,参考这里,关键的语句就是(这里简单试水,不追求效...
分类:
编程语言 时间:
2014-06-16 14:40:05
阅读次数:
437