搜索关键字：jieba分词，搜索到108个结果！码迷,mamicode.com！

jieba是一个开源的中文分词库，这几天看了下源码，就做下记录。下载jieba后，tree得到主要部分的目录树结构如下： ├── jieba │ ├── analyse │ ...

分类：其他好文时间：2016-09-14 12:58:01 阅读次数：1607

BagOfWords： 1. 见上一篇jieba分词。 2. 见上篇，读取分词后文件 3. 统计词频并表示成向量： sklearn工具包方法： ...

分类：其他好文时间：2016-06-23 12:38:16 阅读次数：160

这篇文章主要是爬取百度5A景区摘要信息，再利用Jieba分词工具进行中文分词，最后提出文本聚类算法的一些概念知识。一. Selenium爬取百度百科摘要二. Jieba中文分词 1.安装及入门介绍 2.添加自定义词典 3.关键词提取 4.对百度百科获取摘要分词 5.去除停用词三. 基于VSM的文...

分类：编程语言时间：2015-12-18 06:49:30 阅读次数：8948

提取频率较高的关键词

通过jieba分词，提取频率较高的关键词。 import?jieba.analyse strx?=?‘网络让我们之间的距离变的如此之近，也同时让我们变的如此遥远。世界上最远的距离不是南极到北极，也不是喜马拉雅之巅到马里亚纳之渊；而...

分类：其他好文时间：2015-11-09 19:26:26 阅读次数：190

Jieba分词包（三）——基于词频最大切分组合

Jieba分词包（三）——基于词频最大切分组合在前面，我们已经知道dict中所有的单词和词频信息已经存在了一个trie树中，并且需要分词的句子已经构建成了一个DAG图，构建的过程也运用了dict。那么这次我们来说如何基于每句话的DAG图，找到一个组合路径，使得该组合最合理（即打分最高）？我们直接针对Jieba分词的源代码来解释，其中已经有了很多注释：...

分类：其他好文时间：2014-12-10 18:14:46 阅读次数：379

【原】关于使用jieba分词+PyInstaller进行打包时出现的一些问题的解决方法

描述了使用pyInstaller打包使用jieba分词的文件时出现的一种错误，分析了导致该错误的原因，最后给出了解决方案。

分类：其他好文时间：2014-11-16 18:38:09 阅读次数：1708

新闻个性化推荐系统(python)-（附源码数据集）

1.背景最近参加了一个评测，是关于新闻个性化推荐。说白了就是给你一个人的浏览记录，预测他下一次的浏览记录。花了一周时间写了一个集成系统，可以一键推荐新闻，但是准确率比较不理想，所以发到这里希望大家给与一些建议。用到的分词部分的代码借用的jieba分词。数据集和代码在下面会给出。2.数据集一共五个字段，以tab隔开。分别是user编号，news编号，时间编号，新闻标题，对应当前月份的日...

分类：编程语言时间：2014-09-25 10:43:58 阅读次数：947

python scikit-learn计算tf-idf词语权重

python的scikit-learn包下有计算tf-idf的api，研究了下做个笔记 1 安装scikit-learn包 sudo pip install scikit-learn 2 中文分词采用的jieba分词，安装jieba分词包 sudo pip install jieba 3 关于jieba分词的使用非常简单，参考这里，关键的语句就是(这里简单试水，不追求效...

分类：编程语言时间：2014-06-16 14:40:05 阅读次数：437

共108条上一页 1 ... 9 10 11

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)